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AVERTISSEMENT 


Ce travail forme un tout cohérent et a été conçu de manière à pouvoir 
être lu de personnes ne possédant qu'une culture mathématique et probabiliste 
très rudimentaire, Nous n'avons pas recherché la plus grande généralité 
possible, mais la plus grande simplicité et la plus grande clarté, 


Les références bibliographiques ne sont presque jamais nécessaires à 
l'intelligence même du texte, Le sujet traité étant entièrement vierge, 
aucune lecture préalable n'est indispensable, Nous avons délibérément 
laissé de côté les problèmes connexes des nôtres déjà partiellement résolus 
qui auraient nécessité un exposé trop long. Nous avons essayé de suppléer 
à cette carence en faisant suivre chaque chapitre et l'ensemble du travail 
d'une liste de lectures recommandées, Cette liste a été conçue comme un 
moyen de travail et de recherche, Nous nous sommes tout spécialement 
attachés à citer les auteurs qui apportaient des idées neuves. Aussi avons- 
nous été amenés à citer des auteurs qui ont fait un certain nombre d'erreurs, 
non que ces auteurs soient de mauvais mathématiciens, mais parce qu'ils 
traitaient des sujets très nouveaux et par conséquent très délicats et diffi- 
ciles, Nous ne saurions donc trop recommander aulecteur de ces ouvrages 
de revérifier avec soin tous les calculs qu'il utilise, Le praticien pressé 
qui ne voudrait pas s'astreindre à ce travail fera bien de borner ses emprunts 
aux résultats énoncés dans le présent travail et à ceux des auteurs sûrs 
comme CRAMER, DARMOIS, FORTET, FRECHET. 


L'ordre dans lequel nous avons exposé ces recherches n'est pas celui 
dans lequel nous les avons effectuées. En réalité, nous avions la plupart 
des résultats du chapitre IX avant ceux des autres chapitres, Le chapitre IX 
forme à lui seul un tout cohérent et peut sans inconvénient être lu le 
premier, Par contre, les autres chapitres doivent nécessairement être 
lus dans l'ordre où nous les avons placés. 


Ces recherches entreprises dès 1947 n'ont pu être menées à bien 
que grâce à la bienveillance que mes directeurs de Recherches 
Maurice FRECHET et Georges DARMOIS m'ont toujours témoignée et 
aux encouragements qu'ils ont bien voulu me prodiguer lors de l'exécution 
de ce travail. 


J'exprime ici toute ma reconnaissance, tout particulièrement au 
Professeur Maurice FRECHET pour les très nombreuses publications de 
mathématiciens éminents dont il m'a fait généreusement cadeau et pour le 
soin minutieux avec lequel il a relu tous mes travaux, et au Professeur 
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Georges DARMOIS qui ne s'est pas contenté de lire mon manuscrit, mais 
a lui-même travaillé dessus etauquel je dois au moins deuxidées maitresses 
de cette thèse. 


J'exprime aussi toute ma gratitude au Professeur E.S.PEARSON qui, 
durant toute une année, a spécialement consacré une heure par semaine de 
son précieux temps à ma formation particulière, 


Je voudrais aussi remercier ici tous les professeurs dont j'ai suivi 
avec enthousiasme les cours de probabilité ou de statistique. Je ne citerai 
que les principaux : F.N. DAVID, P. DELAPORTE, J. DUBOURDIEU, 
D'DUGUE, R. FORTET, J.B.5. HALDANFE,,-H,.O. HARTILEN, R°HENON 
M. JANET, N.L. JOHNSON, M.G. KENDALL, R. Von MISES, MORICE, 
J. NEYMAN, R. ROY, Miss THOMAS, N. WIENER. 


Je voudrais enfin remercier les personnes avec lesquelles j'ai eu les 
conversations particulièrement fructueuses : ARNOUS, BARNARD, 
BARTLET I, R, BONNET, F. CANTELL]I, H.-CRAMER,-VAN DANT7 IG; 
J.L.DOOB, M-J. DUHAMEL, Mrs EVANS, FONTAPPIE, C. FOURGEAUD, 
PEMRUCÉS AC AGINIE "AOSTINSEM EE AGELRINGER, Th GUTPE AUDE 
J. JOUVIN, KAMPE DE FERIET, KARUHNEN, W.KOSTITZIN, LE CAM, 
P'AVEMVE A MMLOEMEE MA MEUBIN ES MARQUERD AE" MOURTERS 
OMNTAMNIANI A PBINEDA RAP OLEAXCZER POMETEJ MR /RAOPARIGUENRE 
FR _RISSER ES  RIOS ARR ROSENRELD, ER SAT VEMINT AASAVIAGIEE 
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Mes remerciements aussi à tous ceux auxquels je ne pense pas en ce 
moment qui m'ont aidé dans la poursuite de mes recherches, 
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INTRODUCTION 


Un des principaux buts de la statistique est la description d'une v,a, 
(en abrégé pour variable aléatoire) X de fonction de répartition (f, de r,) 
F (x) : au moyen d'un certain nombre de fonctionnelles de F (x) : N CF(x)] 
que nous désignerons sous le nom de caractéristiques fonctionnelles (1), 


s 


Nous pouvons généraliser la notion de caractéristique fonctionnelle à 
l'espace à 2 dimensions, Etant donné un couple aléatoire XY de f., de r 
F (x, y), nous pourrons encore continuer à lui associer divers éléments 
de la forme Ÿ | F(x,y) | , éléments que nous continuerons à désigner sous 
le nom de caractéristiques fonctionnelles (c.f.). 


Certaines de ces c.f. sont des nombres comme par exemple : 


- la moyenne de la v.a, Y 

- la variance de la v.a. Y 

- le coefficient de corrélation linéaire r du couple aléatoire XY. 
- le rapport de corrélation n de Pearson, 


D'autres sont des lignes comme par exemple : 
- la ligne de régression des moyennes de Ÿ en x. 


Il est bien clair que chacune des 5 c.f. ci-dessus constitue pour nous un 
outil de travail et l'on peut citer maints problèmes qui peuvent être résolus 
grâce à leur emploi simultané, Ceci nous suggère qu'il doit exister entre 
eux un lien de parenté alors qu'il n'en existerait pas entre les 5 c.f. 
suivantes : 


- la dominante de Y 

- l'entropie de Y 

- le coefficient de corrélation linéaire du couple XY. 
- l'indice de connexion simple de Gini. 

- la ligne de régression des médianes de Y en x, 


Aussi avons-nous cherché à dégager le lien qui existe entre les 5 c,f, 


Nous nous proposons dans cette introduction de donner quelques théo- 
rèmes simples dont le lecteur trouvera lui-même sans peine des 


(1) On remarquera que nos caractéristiques fonctionnelles ne correspondent pas 
exactement à ce que les Anglo-Saxons désignent sous le terme de Statistics, les statistics 
étant en réalité des caractéristiques fonctionnelles empiriques, 
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démonstrations élémentaires, Ces théorèmes sont des cas particuliers de 
propositions beaucoup plus générales que nous établirons dans la suite et 
doivent dans notre esprit simplement aider le lecteur à suivre le fil 
directeur qui nous a guidés quand nous avons écrit ce travail. - 


Bornons-nous tout d'abord au cas où X est une v.a. discrète (le seul 
où n°? a été défini jusqu'à présent). 


Avant nous, le cas unidimensionnel a été traité par Fréchet 2] (1) 
qui, dès 1946 a clairement mis en évidence qu'il existe une certaine parenté 
entre deux caractéristiques fonctionnelles particulières la variance et la 
moyenne (le même lien de parenté existant aussi par exemple entre l'écart 
moyen et la médiane), 


Mais ce n'est qu'en 1949 que Georges Darmois re] jeta quelque 
lumière sur la relation qui existe entre les autres notions, 


Ce dernier remarque en effet que l’on peut se considérer comme d'autant 
mieux renseigné sur les valeurs que peut prendre une v.a. Y que la 


: 2 ; : UF : 
variance o de. cette. v.a. est plus petite. IL est clair que,si je sais en 


outre que la v.a. X a pris la modalité xi, je serai amené à me considérer 


; i 2 
comme d'autant mieux renseigné que © 
Xi 


remarque que l'on n'a pas toujours © ÿ Loÿ mais que par contre on a 
Xi 


est plus petit. Georges Darmois 


toujours : 
Dia 2. Pr (res eso 
Yx in 
et il traduit le fait que la quantité : 


AF= DCS -0 5%, )Pr(K=xi) (2) 


ne peut être négative en disant qu'un renseignement supplémentaire ne peut 
en moyenne nous faire perdre de l'information ; aussi considère-t-il la 
quantité AŸJ comme un outil commode pour mesurer l'avantage que nous 


s 


avons à connaitre une liaison, 
Il est remarquable de constater que si nous formons le rapport ne. 
© 


nous obtenons le carré du rapport de corrélation de Pearson, 1? #prhtder 
donc ainsi comme le rapport entre ce que nous avons effectivement gagné 
et le maximum de ce que nous pouvions espérer gagner, C'estlà, pensons- 
nous, l'aspect le plus simple et le plus naturel de la notion de ''corrélation!!, 


S 


Mais il existe à notre avis un autre aspect plus complexe, que nous 
désignerons sous le nom de ‘corrélation dure!'! parce que pour parvenir à 
cette notion, nous sommes amenés à considérer les surfaces de corrélation 
dure de S, Bernstein, 


On peut en effet en première approximation remplacer l'étude du couple 
aléatoire XY par celle d'un couple aléatoire plus simple X* yY* que nous 
appellerons couple aléatoire associé au couple XY. 


Certes, il y a bien des manières de faire une telle substitution, Nous 
n'en considèrerons pourtant qu'une seule : celle où Y* est en corrélation 
dure par rapport à x* au sens de S, Bernstein [1] 


(1) Les chiffres entre crochets renvoient à la bibliographie placée à la fin du 
présent travail, 
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4 . . . “ . = 
Généralisant légèrement les définitions de S, Bernstein, nous dirons 
que la v.a, Y est en corrélation dure relativement à x si les fonctions de 
répartition liées aux divers x; sont identiques à une translation près, 


Ceci nous amène à imposer au couple aléatoire X* Y“associé au 
couple XY d'être tel que : 


Pr (Y*< y) | X=xi) = Y [y - p (x:)] (3) 


Ÿ (y) = 2 F,; y + CD Pr(X = xi) (4) 


Ceci posé, il est bien clair qu'à toute courbe ® (x) les relations (3) et 
(4) font correspondre d'une manière unique un couple aléatoire X* Y*associé 
au couple aléatoire XY,. 


11 ül : LA ! — 
On peut calculer le gain d'information dure al Jyx ve =) Y = oO Ye 


relatif à chacun des couples aléatoires X* Y* et on constate que AT, y* 
est maximum quand on prend précisément : 


pxi)= M Yx, +K (5) 


et nous exprimons ce fait en disant que le schéma probabiliste estle mieux 
adapté possible quand y (x) estune courbe parallèle à la ligne de régression 
des moyennes. 


Mais il peut être aussi utile de considérer un autre schéma probabiliste 
moins bien adapté à la description du couple aléatoire X Y, mais qui présente 
sur le précédent l'avantage d'être considérablement plus simple.C'est celui 
où on impose aux @ (x;i )d'être d'une forme simple. Par exemple, on peut 
imposer aux points @ (x;i) d'être tous situés sur une droite, Quand cette 
dernière condition est vérifiée, on constate que le A'T du couple X* Y*est 
maximum précisément quand les points @(x;i) se trouvent sur une droite 
parallèle à la droite ajustée par la méthode des moindres carrés, Si æ (xi) 
est ainsi déterminé, on peut facilement montrer que le rapport entre 


l'information gagnée sur le couple X* Y* etao sa (information maximum que 


1 é / L é d fficient d 
nous pouvions espérer gagner) n'est autre que le carré du coefficient de 
corrélation linéaire r?. 


Dans le travail qui va suivre, nous nous proposons de généraliser les 
idées exprimées ci-dessus, 


D'une part, nous ne nous bornerons plus à considérer l'imprécision de 
nos connaissances comme nécessairement déterminée par la variance, 
mais considèrerons une classe beaucoup plus vaste de c,f. (celle des 
fonctionnelles concaves). D'autre part, nous ne nous bornerons plus à 
imposer à X d'être une v.a, discrète, nous supposerons le couple aléa- 
toire XY absolument quelconque, 
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CHAPITRE I 


DE  L’INCERTITUDE 


INTRODUCTION 


Depuis fort longtemps ona cherché à définir des indices pouvant servir 
à caractériser l'imprécisionavec laquelle nous connaissons la valeur qu'est 
susceptible de prendre une v.a, (en abrégé pour variable aléatoire) Y de 
f.d.r. (en abrégé pour fonction de répartition) F (y). 


Durant ces dernières années, on s'est plus particulièrement occupé de 
généraliser les indices connus, 


C'est ainsi que l'écart moyen minimum (1), l'écart type et l' étendue 
sont apparus comme des écarts typiques de Fréchet d'ordre 1, 2, l'infini 
respectivement (cf. Fréchet |[ 3] ). 


La notion de différence moyenne (2) a été reprise et généralisée 
(Brambilla [1] ) ; on montre que cet indice peut se mettre sous la forme : 


Enfin la notion d'entropie, introduite en téléphonie en 1928 par 
Hartley [1 4 s'est déjà montrée susceptible de généralisations, 


1. — ESSAI DE DÉFINITION AXIOMATIQUE D’UN INDICE 
D’INCERTITUDE 
Nous nous proposons ici de donner une définition axiomatique des 


indices précédents, Ces indices que nous appellerons indices d'incertitude 
seront des fonctionnelles de la fonction de répartition de Y : 


3-6 [rw] 


et vérifieront certaines conditions que nous nous proposons de préciser, 


(1) L'écart moyen est déjà comparé à l'écart type dans Helmert (1). 


(2) Cette notion a été introduite semble-t-il par l'astronome allemand Jordan, à la 
fin du siècle dernier, 
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Parmi les conditions qu'on peut à priori songer à imposer à un indice 
d'incertitude, citons : 


CONDITIONS QU'ON PEUT SONGER À IMPOSER : 


condition I : Si l'incertitude Jy relative à la v.a. Y existe, l'incertitude 
Jxy relative à la v.a. AY existe également et est telle que : 


autrement dit : 


[ro] < 9 [FE] sx: 


condition II : Si l'incertitude relative à la v.a. Y existe, l! incertitude 
relative à la v.a. Y-a existe également et lui est égale, autrement dit : 


6 [rG6)] =9 [r(y-a)] 


condition III : L'incertitude relative au mélange de 2 populations également 
probables existe toutes les fois que l'incertitude relative à ces 2 populations 
existe et est supérieure ou égale à la moyenne de l'incertitude des 2 popula- 


tions. 
[eoieb = 11 4 [nt] +4 [no] 


condition IV : L'incertitude relative au mélange de k populations dans des 
proportions p,, p,, ... p, existe toutes les fois que l'incertitude relative à 
chacune de ces populations existe et est supérieure ou égale à la moyenne 
pondérée de l'incertitude des k populations, autrement dit : 


ÿ [> Pi M |=x P; Ÿ [F: o)] 


condition V : L'incertitude est une quantité positive ou nulle et on a Jy= 0 
si Ÿ est une v.a. presque certainement égale à une constante, 


Cette liste n'est évidemment pas limitative ; on peut par exemple 
également songer à imposer à la fonctionnelle Ÿÿ certaines conditions de 
continuité. D'autre part, il est clair que dans une définition axiomatique 
de l'incertitude, nous n'aurons pas besoin d'imposer toutes les conditions 
de I à V ; en effet, certaines de ces conditions sont plus ou moins les 
conséquences des autres ; certaines autres ne sont pas utiles pour la 
démonstration des théorèmes que nous avons en vue et il nous est apparu 
tout à fait inutile de restreindre ainsi la portée de ces théorèmes. 


2. — LES INDICES CLASSIQUES VERIFIENT LES CONDITIONS I à IV 


Nous allons voir que les conditions I à III sont bien vérifiées pour les 
indices classiques et comme il résultera des résultats du chapitre III que 
la condition IV l'est aussi,nous admettrons ce résultat sans démonstration. 


Enfin, il est bien clair que la condition V est bien vérifiée si on prend 
pour mesure de l'incertitude le moment typique de Fréchet d'ordre k ou la 
différence moyenne, Cette condition continue d'être vérifiée si on suppose 
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que Ÿ est une v.a. discrète et si on prend l'entropie pour mesure de 
l'incertitude. Elle cesse d'être vérifiée si on suppose que Y est une v.a, 
possédant une densité de probabilité f(y) et que ÿ [F (y)] est donné par : 
ÿ Lr(y)] = - Î f (y) L f(y) dy, cette quantité pouvant évidemment être 
négative, 

Montrons maintenant que les conditions de I à III sont vérifiées : 


1) si nous prenons pour ÿ le moment typique de Fréchet d'ordre k 
s[rO] - min. / |y-alf art) 
| existe si [ F(y) | existe et on a évidemment : 
(r] mm f [volt arf 
= min. Î [AE - nf ar (4) 
= 9 [r6)] 
etion a bien : 


[rm] <s [D] En 


B) si [r()] existe, il est clair que Ÿ [ F(y-2)] existe également 
et qu'on a : 


ÿ [F(y-2)] 


min, ÿ | y-b|* dF (y-a) 
b 


chine fl | zta-b |* dE (z) 
b' 


o[r(6)] 
Y) enfin la quantité : 


) | F6) + a) G(y) | = min, Î | y-b 
b 
est évidemment définie si les moments d'ordre k de Y et Y' existent, 
Soit alors b* une valeur de b pour laquelle le minimum de l'intégrale 
précédente est atteint. On aura évidemment : 


[Eure]. 44 [bal are f Dei ac) 


et le second membre est évidemment supérieur ou égal à : 


1{rmin. / | y-b'|k drG)+min. | [y-b"[* 4) 


$ arb)+ 


b' 
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donc : 


ÿ ruse]: | ; [sb] + Ÿ [ 6) |] | 


2) Considérons maintenant le cas de la différence moyenne D. 


On a : 
El 270-401 à 
= 2 f.rt) Li-r(z) | À dz 
= (#& 09 F (y) 
donc : 


s|r(# | =" 6 [rt] ER 


et la condition I est bien vérifiée, 


B) On voit de même que : 


6 [r6-2] - 9 [rw] 
Y) enfin, on a : 


root] à f rue [rune] à 


= | 2 Î F6) [i-r6 | dy +2 Î G(y) [1-cw | ày | 
+2 ffro-ac dy 
=1 {6 rw] +6 [co] } ++ [ [ro-co fa 


et la condition III est bien vérifiée, 


3) Enfin l'entropie n'est définie que dans 2 cas particuliers, le cas 
où Y est une v.a. aléatoire discrète et celui où Y possède une densité de 
probabilité. 


a) entropie dans le cas discret. 


On suppose que Y est susceptible de prendre un nombre fini de 
valeurs y;, Y2,.. ÿYn avec des probabilités p,,... P, 


o [Fr] 
*pEp =" "H(p) 


4 Let) ] = 2 H(p;) 


et il en résulte immédiatement que : 


tr] 


ÿ [F (y-a)| 


On aura alors : 


il 
1 
M 
T 
Es 
2 


ou en posant : 


Il Il 
-S- = 
AE 
Hj Hj 
ES 
El 
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De plus, si nous supposons que la v.a. Y'de fonction de répartition G(y) ne 
peut prendre que les valeurs y,,... y, avec les probabilités p,,…. p,, on aura: 


ÿ [£& +G(y) | SE E + pi | 
pi et pi' étant des quantités nécessairement positives ou nulles 


Sn pa où U 2 u a 
jai [ @:+ ei) | sera nécessairement définie. 


De plus, comme H est une fonction concave, on aura nécessairement 


Rp 1 
Dafem]es [x +8 (01)] 
ce qui prouve la condition III. 


B) entropie dans le cas d'une densité de probabilité, 


On aura alors : 
6 [r6)] 
ÿ [HI 


4: f(y) L f(y) dy 
HD [re 2] à 
= LA +4 [r(»)] 


donc la condition I est bien vérifiée, 


il 


La condition II l'est aussi également. 


Enfin, si ji f(y) L f(y) dy et di g(y) L g(y) dy existent au sens classique, 


Alors : 
’ [E6) ; 66) je : [ +0 » sw st . 


2 


existera aussi et sera telle que : 


[ete] = 1146 [ro] +9 [ou] | 


3. — NOTRE DÉFINITION DE LA NOTION D’INCERTITUDE 


Il résulte des paragraphes précédents que diverses définitions de la 
notion d'incertitude sont également possibles. Toutefois, comme le reste 
de notre travail roule sur l'étude de certaines propriétés de cet indice, 
nous aurons besoin d'adopter une définition précise de cette notion. 


Il est clair que si nous adoptons une définition trop vague, les théorèmes 
auxquels nous parviendrons dans la suite seront d'un énoncé relativement 
fort compliqué. Au contraire, si nous adoptons une définition trop stricte, 
ces théorèmes seront d'un énoncé très court, mais perdront beaucoup de 
leur généralité, 

Nous avons choisi un moyen termeentre ces deux écueils et dirons dans 
la suite que Jy est un indice d'incertitude s'il vérifie les conditions Ilet III. 


Définition. 
Nous dirons donc que Ÿ Lr() | est un indice d'incertitude si : 
1° - toutes les fois que Ÿ Lr(y) 1] et Ÿ [ G(y)] sont définis Ÿ [ F(y-a) | et 
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() [= ) x ] le sont aussi. 
2e ) est une ‘''fonctionnelle concave'!', autrement dit : 


ÿ ENT) > + 6 [rt] +9 Cat] | (1.1) 
3° - On a toujours # [F(-a)] = 9 [ri] (1.2) 


On verra dans la suite que dans notre énoncé, la condition de conca- 
vité (1.1) est une condition essentielle alors que la condition (1.2) est une 
condition accessoire qui permet simplement d'alléger l'énoncé de certains 
théorèmes. 


Remarque : Nous avons préféré dans le cours de cet exposé éviter le mot 
d'information autant que faire se pouvait attendu que ce mot a été déjà 
employé dans des sens différents par Wiener | 1 } etGuilbaud ( 1 ) d'une part, 
Mandelbrot | 1) et Schützenberger | 1) de l'autre, - La meilleure de ces 
définitions et la seule employée au moment où nous avons écrit ce travail 
est sans contredit celle de Wiener qui appelle information une entropie 
négative Ÿ = Z pi L pi dans le cas discret. Y = f f(y) L{(y)dy dans le ‘'cas 
continu" - Cette définition est justifiée par le fait que l'information de 
Wiener augmente si la variable aléatoire Y est connue avec une plus grande 
précision, - Aussi nous conformant à l'idée directrice de Wiener, nous 
appellerons Information une incertitude négative. - Cette définition nous 
sera utile quand, au chapitre III, nous définirons notre gain d'information 
qui généralise le gain d'information de Wiener (1). 


4. — DOMAINE DE DÉFINITION 


Il est à noter que Ÿ [ F(y)] n'est pas en général définie en tout point 
de l'espace E des fonctions de répartition, Ceci nous conduit à associer à 
toute mesure de l'incertitude un domaine D de E qui devra être tel que : 


1° siF(y) € D alors Ÿ Cr(y)] est définie 


F(y) + &( 
= 


2° siF(y)E DetG(y) € D alors y) € D 


les domaines D qui vérifient les conditions 1° et 2° jouissent d'importantes 
propriétés ,aussiles désignerons-nous sous le nom de domaines de définition 
de ÿ. 


D'autre part,à l'ensemble des v.a, y 


dont le moment absolu d'ordre r 


mise sf jy dF6) (1.3) 


existe, nous pouvons associer l'ensemble Al des points F(y) de E tels 
que (1.3) ait un sens, 


Il est alors clair que si nous prenons le moment typique d'ordre k de 
Fréchet comme mesure de l'incertitude, nous pourrons prendre le 
domaine A pour domaine de définition de ÿ. 


(1) En théorie des télécommunications on utilise généralement le logarithme de 
base 2 - Dans notre théorie au contraire le choix de la base des logarithmes est sans 
importance, 
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De plus, il est clair que ÿ [Fr(y)] n'est pas défini si F(y) n'est pas 
un élément de A (W,Nous traduirons ce fait en disant que A(K) est le domaine 
maximum de définition de ÿ, Nous pourrons dans certains cas avoirintérêt 
à considérer certains domaines de définition de ÿ quine coincident pas avec 
le domaine maximum de définition de ÿ. 


Dans le cas présent, nous pourrons par exemple prendre comme 
domaine de définition de ÿ tout domaine Al"oùr = k, 


De même, on ne peut prendre E comme domaine de définition de la 
différence moyenne ; toutefois il est possible de montrer que l'on peut 
prendre le domaine A (1) défini plus haut comme domaine de définition de 
cette quantité, 


De même encore pour l'entropie, on ne pourra prendre E comme 
domaine de définition. 


Aussi nous sommes-nous demandé s'ilexiste des indices d'incertitude 
dont E soit précisément le domaine maximum de définition, 


La réponse à cette question est affirmative. 


Si nous prenons pour indice d'incertitude la valeur pourfixé de la 
fonction de concentration de Paul Lévy, changée de signe, 


c=9 [r(y)] = min. | F(y)- F (y #)} 
À 
Il résulte d'un théorème de G. Darmois PAF] que la condition III est 
bien vérifiée, Il en est de même évidemment de la condition Il. C'est donc 
bien un indice d'incertitude qui reste bien défini quel que soit F(y). 


5. — DE L'UTILISATION DES INDICES D’INCERTITUDE 


Il est clair qu'on ne pourra jamais connaitre l'indice d'incertitude 
théorique exactement, En revanche, on peut espérer connaitre l'indice 
d'incertitude approximativement en considérant les valeurs V;,ÿ2,...yi,-..Yn, 
prises par une v.a. Y de fonctions de répartition F(y), au cours de n 
épreuves indépendantes. 


On sait, d'après le théorème de Glivenko-Cantelli,que si n tend vers 
l'infini, la fonction de répartition empirique Fn(y) converge presque sûre- 
ment vers F(y) et ceci uniformément sur tout l'intervalle (-o0 , +0 ),. 


Définition. 
Nous dirons avec Fréchet (cf. bibl. Fréchet [ 1] )que ÿ est une 
fonctionnelle continue en F(y) sur un domaine D de définition de ÿ si, 


quelle que soit la fonction G(y) de D et lenombre positif n , on peut trouver 
€ suffisamment petit pour que : 


Max | F(y) - G(y)|<e entraine | ÿ LF6) | -ÿ [ SG) ] EE 1 

Dès lors, si ) est une fonctionnelle continue en F(y) sur Det siF (y) 
est un élément de D, alors d'après le théorème de Glivenko-Cantelli 
ÿ [Fr (y)] tendra presque sûrement vers ÿ [F(y)] quand n tend vers 
l'infini. 

Le désir où nous sommes d'appliquer le théorème de Glivenko-Cantelli 
nous conduira souvent à ne pas prendre pour D le domaine maximum de 
définition de ÿ. 
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Ainsi, sinous prenons l'entropie pour mesure de l'incertitude, nous 
constatons que ® [F:(y)] tendra vers Ÿ LF() si nous prenons pour D 
l'ensemble des F(y) totalement discontinues, 


De même, si nous prenons la différence moyenne de Gini oule moment 


d'ordre k de Fréchet ÿ [ F,(y) ] tendra vers ÿ LF(y) ] - si nous prenons 
pour D l'ensemble des fonctions F(y) correspondant à des variables aléa- 
toires d'étendue finie. 


Plus précisément, on peut montrer que dans le cas où on prend le 
moment d'ordre k de Fréchet comme mesure de l'incertitude, il n'est pas 
nécessaire d'imposer à F(y) d'être un élément de tous les A” (définis p.1.9), 


mais qu'il suffit pour que Ÿ LE (y)] no | Lr(y)]| de prendre simplement 
D = A9 


LECTURES RECOMMANDEES 


Les personnes désireuses de se documenter plus complètement sur 
quelques questions abordées ici liront avec fruit les articles suivants : 


a) SE Free EE F réchet [3] [7] [8] [5] Féron [2] [a] 


b) pour la différence moyenne Cantelli A] De Finetti [1] De Finetti 
Piacello [1] Kendall [1] Salvemini [1 


c) pour l'entropie l'ouvrage fondamental reste Shannon et Weaver [1] 
on peut lire aussi Féron et Fourgeaud [1] C. Guilbaud [1] 
Wiener [1] et [2] Schützenberger [1] Mandelbrot [1] Hartley(1]. 


CHAPITRE II 


DE LA FONCTION DE RÉPARTITION LIÉE 


1. — RAPPEL DE DÉFINITIONS CLASSIQUES 


Comme nous l'avons dit dans notre introduction, le rapport de 
corrélation de Pearson n'a été à notre connaissance défini que dans le cas 
où X est une v.a. discrète et il en va de même des principaux indices dits 
de corrélation. La raison de ce manque manifeste de généralité nous semble 
due au fait que ces indices ne peuvent être construits facilement que si on 
sait ce que l'on doit entendre par le mot ‘'fonction de répartition liée'', 


Or,si cette notionest facile à définir dans le cas où X est une v.a. dis- 
crète, elle l'est si peu dans le cas général, qu'il nous eut été impossible 
de démontrer des théorèmes d'existence si la théorie de la mesure et des 
fondements du calcul des probabilités n'avaient été préalablement suffisam- 
ment développés. 


Comme la plupart des auteurs, nous considérons que l'on peut associer 
à tout intervalle I de l'espace euclidien à 2 dimensions R: et plus générale- 
ment à tout ensemble de Borel S de Ra une fonction P (S)appelée probabilité 
de S et vérifiant les conditions suivantes : 


7 P(S) est non négative P(S) => 0 
FA P(S) est complètement additive 
P(S1)+P(S2)+...+P(Sn)+... = P(S1+S2+...+Snt. . .) (2.1) 
si les Si sont disjoints 
57 PR) d'elle 1 
Par un léger abus de langage, nous  désignerons par 


Pr(x, X << x9, y LC Y << y) la valeur de la fonction P(S) quand S est 
l'intervalle ouvert défini par les points M,(x,, y1) Mo(x2,y2) et par 
Er { X CT, y, CY << y, } la valeur de P(S) quand S désigne l'ensemble 
des points x, y tels que y, Y << y, et X est un point de l'ensemble T de 
l'espace R}, (T est supposé B-mesurable), 


Nous noterons simplement par Pr(X C T}) où T désigne un ensemble de 
points de l'espace R; la valeur de P(S) quand S désigne l'ensemble des 
points x, y, tels que X soit un élément de T (y restant quelconque). 


Ces définitions classiques étant données, ilestimportant de remarquer 
que la probabilité liée au sens classique que nous noterons 
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DEV VTT | X C T)est définie seulement si Pr (XC T) est définie 
et non nulle et dans ce cas, on a : 


Rene 0 1] 
ALT RAR SE | XCT)= 71 5: Te (22) 
et la fonction de répartition liée correspondante sera : 
F(y| XCT)=Pr(Y y |XCT) (2.3) 


Il est à remarquer que F(y | XC T}) n'est définie au sens classique 
que si Pr(X € T)est définie et positive. 


En particulier F(y | X=x) ne sera définie au classique qu'aux points 


x Où Pr(X x; ) #0, 


Il est clair que toute tentative se proposant d'étendre la notion classique 
de fonction de répartition liée présentera une certaine part d'arbitraire, 
afin d'étendre la notion de probabilité liée de la manière la plus utile, il 
convient tout d'abord d'étudier les propriétés de ces fonctions. 


2. — SYSTÈME DE FONCTIONS DE RÉPARTITIONS LIÉES GÉNÉRALISÉES 
1°) Si T1, T2,.. sont disjoints, on a évidemment : 


> F5 | Ti) Pr(XC Ti) = Pr { XC TitTet... nt... , y} (2.4) 
i=1 


Ceci nous conduit à imposer à tout ensemble de fonctions de répartition 
liées généralisées F, (y) d'être tel que pour tout ensemble E de R;: 


fawerm-r&crr< (2.5) 


L'intégrale étant bien entendu prise au sens de Lebesgue-Stieltjes; en 
langage probabiliste ordinaire (2,5) est complètement équivalente à : 


Lre Gargæ)-rtes (2.6) 


si F(x;yh= Pr (XeSx, Y y). 


k . d'F(x,y) : J 
2°) Nous verrons que si LESC existe et est continue en tout point par 


rapport à l'ensemble des variables x,y,la ligne de régression des moyennes 
de y en x y = (x) est telle que : 


p (x) = lim. [ y dF(y | 4) (2.7) 


Mie 08 AU 


Quand Ti est un intervalle ouvert contenant le point x, Comme nous 
désirons que les propriétés connues des v.a. possédant une densité de 
probabilité subsistent dans notre théorie, nous serons naturellement 
amenés à supposer que, si nous étudions les moyennes liées, on a : 


fr ar = lim. NE un 
Die 0 
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plus généralement si nous étudions la fonctionnelle [EF (y) ] (par exemple 
la variance liée, l'étendue liée, etc...) il nous sera commode d'imposer à 
F (y) d'être tel que : 


ÿ ['Ety) ] =timint, 4 [ r(n | r)] (2.8) 


T—0 


quand Ti est un intervalle ouvert contenant le point x. 


3. — ENSEMBLES ADMISSIBLES DE FONCTIONS DE RÉPARTION LIÉES 


On remarquera que les conditions précédentes ne sont pas suffisantes 
pour nous permettre de définir F;x(y) d'une manière unique en tout point du 
plan. Mais elles nous permettent de définir des ensembles E de fonctions 
de répartition qui se comporteront d'une manière identique dans nos 
calculs. De tels ensembles seront dits ensembles admissibles defonctions 
de répartition si seule (2.5) est vérifiée, ensembles admissibles relative- 
ment à la fonctionnelle Ÿ, si (2.5) et (2.8) le sont. Plus précisément : 


Définition I, 


Nous dirons que l'ensemble E des fonctions de répartition Fx(y) est 
x 


admissible si Î FE (y) d F(E, © ) existe et estégalà F (x,y)l'intégrale 
—00 
étant prise au sens de Lebesgue-Stieltjes. 


Il est à remarquer que cette intégrale existera pour tout ensemble de 
fonctions Fx(ys) = 'Y (x, yo) mesurables, 


En particulier,comme toute fonction mesurable au sens de Borel l'est 
au sens de Carathéodory, l'intégrale existera toujours si Ÿ (x, yo) est 
B-mesurable. D'une manière plus particulière encore toute fonction con- 
tinue étant B-mesurable, l'intégrale existera toujours si Y (x, y)est 
continue. 

Définition II. 

Nous dirons que l'ensemble E des fonctions de répartition EFx(y) est 

admissible relativement à la fonctionnelle ÿ, si Fx(y) vérifie les conditions 
Drrnree : lim.inf. . 

de la définition I et si de plus,quand FO ÿ LF(y | T; )] existe, quand 

i 

Ti est un intervalle ouvert contenant le point x, alors Ÿ É Ex(y)] existe et 


est tel que: 
6 [mn] =timuint. 6 [rtlm)] (2.9) 


Ceci posé, remarquons dès à présent que le système de fonctions de 
répartition liées, considéré par Paul Lévy (1) n'est pas nécessairement un 
système de fonctions de répartition admissible à notre sens. En effet, à 
ce stade de la théorie, la fonction de répartition est pour Paul Levy, une 


fonction croissante et bornée, mais on n'a pas nécessairement pour lui 


lim.  Efyÿ)=.0 (lim. Æ(y)=1 (2.10) 


y —> - y —> + 


(1) Paul Lévy [1] p. 68. 
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Ces conditions sont pour nous, au contraire, absolument essentielles, 


La même remarque s'applique à la définition de Madame Gruzewska 1 
qui appelle fonction de répartition conditionnelle, la quantité : 


€ F(x+Ax,y)- F(x 


90) 7 LR FGraxo J-FO a ) 


(2541) 


et elle démontre le théorème suivant : 
Théorème de Mme Gruzewska : 


Si quand Ax tend vers 0, la quantité : 


PROS, - F(x, 
ah mi Dia F(x+Ax, o ) - rl ) (2.12) 


tend vers une limite unique sur tout l'ensemble de définition (c'est-à-dire 
en tous les points tels que : 
F (x+Ax,o )=>F(x,æ ) pour tout Ax => 0), 


Alors on a : x 
F(xy) = Î HO) ar (E.o ) 


Ce théorème nous est apparu comme un cas particulier du théorème plus 
général suivant : 


Théorème I. 


Quelle que soit la fonction de répartition F(x,y), il existe toujours une 
infinité de systèmes admissibles de fonctions de répartition liées, 


Ce théorème estun cas particulier d'un théorème beaucoup plus général 
dû à Doob (2) dont nous ne pouvons ici donner qu'une vague idée(cf, Doob [1] 


P-018)à 


Etant donné un certain espace abstrait ( et un certain corps de Borel #, 
Doob appelle probabilité conditionnelle d'un certain ensemble mesurable M 
relativement au corps # toute fonction P (M | F) de2variables(l'ensem - 
ble M et le pointw ) telle que pour tout A e& 


P(M|& )daP = P( A M) 


et démontre l'existence d'une infinité de ‘'versions!'' de P(M | Œ }), 


Dès lors, si nous considérons 2 fonctions B-mesurables x(w )}, y(w ) et si 
nous prenons : 


1°/ pour M l'ensemble des points de ( pour lesquels y (w ) y. 


2°/ pour # le corps de Borel B(S ) engendré par la classe des 
ensembles de points & tels que x (w ) appartienne à un intervalle, 


On peut montrer aisément qu'il existe une version z (w ) de P (M | & ) 
telle que z (&w') = z (w'"') toutes les fois que x(w') = x(w'"'), autrement dit, 


(1) Melicer-Gruzewska hi] Sur la distribuante de deux variables aléatoires 
dépendantes C.R.1951 p. 1256. 


(2) Doob [2] avait donné précédemment une autre définition de la probabilité 
conditionnelle qui a été critiquée par Dieudonné [tinTei 
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telle que P (M | & )ne dépende que de x. Une telle ''version'' des P (M | F ) 
sera un ensemble de fonctions de répartition liées admissible à notre sens, 


En raison de son importance capitale, nous donnerons ici une démons- 
tration élémentaire du théorème I, 


Il nous suffira évidemment pour démontrer le théorème 1 de prouver 
qu'il existe un ensemble admissible { F%x (y)} de fonctions de répartition 
liées puisque si [Hx(y) | est un ensemble de fonctions de répartition telles 


que H,(y) = Fx(y) sauf peut-être pour un ensemble de valeurs de x de proba- 
bilité nulle, on aura d'après la définition de l'intégrale de Lebesgue- 
Stieltjes : 


rye [re Gar (to) 


00 


= Î Hy ()dF(E,o ) (2.13) 


—-00 


Pour montrer qu'il existe effectivement un système admissible de 
fonctions de répartition liées, remarquons que F (x, )} = A (x) a, au plus, 
une infinité dénombrable de points de discontinuité, On pourra donc écrire : 

A (x) = Ay(x) + of (x) 
où A4(x) est une fonction totalement discontinue, non-négative et non- 
décroissante, 
et où cf (x) est une fonction continue non-négative et non décroissante; soit 
S4 l'ensemble des points où A4(x) présente des discontinuités, Si xj est un 
point de l'ensemble S;, on pourra poser : 


+ MB SA - F(x;i-0, 
Fx; (y) - EG Fe (2.14) 


Le dénominateur étant toujours positif, FX? (y) sera toujours définie, 
De plus, en tenant compte du fait que : 
lim. P(Sn) = P(lim. Sn) 
on voit en prenant successivement pour Sn l'ensemble des points tels que 


y -n,x= xniet pen: 2% xune ll, 2,,3.. 


que : 
lim FX (y) = 0 
V=>1=00 
limit (es 1 
ÿ—>+® 
posons par ailleurs Fi(x,y) = D F(xi,y) - F(xi-0,y) 
X;<Xx 


On aura évidemment : 


Fi(x;y) = Î Fe (y) d A4(E) 


œ 


posons F (x,y) = F(xy) - F(ky) , (2.15) 


&(x,y) sera évidemment une fonction continue de x puisque si X2>> X4 : 


F (x: y) - x, y) Æ ON (x) - Of (x) (2.16) 
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et comme «# (x),elle sera non-décroissante et bornée, Donc A (x)et F'(x,y) 
seront des fonctions de x uniformément continues (1) eton voit comme 


précédemment que : 
lim. & (x2,y) -  (x1,y) 


Vi >. 00 


(0) 


lim, Œ(xry) - &'(xy,y) = Of (x) - À (x) 


V0 


Dès lors, posons A (x) = uoux = œ (u) etconsidérons la fonction 
Œ(alu),y,) = Fi (u,y). Cette fonction sera également continue et croissante 


ebton a: 
0 <<; (u, Yo) ES 
De plus, en vertu de (2.15), on aura : 


&, (uth,yo) - &i (u; Yo) L h 
lim. &1 (uth,y) - & (u,y) 


il 
[æ] 


lim, &, (uth,y) - & (u,y)=h 


ce: C2 


F, (u, yo) ne sera donc pas seulement une fonction continue elle sera encore 
absolument continue et on aura. : 


Si (y) = JS! (v,ye) av (2.17) 


où &y'(v, yo) est la dérivée supérieure de & au point v (2). 
Cette dérivée reste évidemment comprise entre 0 et 1. D'autre part, quel 
que soite on peut trouver yo tel que #, (u,y)<<e? et le théorème dela 
moyenne nous montre alors que # (v, Yo) reste inférieur à € sauf peut- -être 
sur un ensemble de mesure au plus égale àe. On en déduit aisément que 
sauf peut-être sur un ensemble de mesure S2 nulle de valeurs de v 


He 1 (Vo) ="0 


Y — - © 
On voit de même que sauf peut-être sur S; 


lim, &3 (v, yo) =1 
y —>+00 


Ceci posé, désignons par Px (y) la quantité égale à #1 (v,yo) quand v= (x). 
On a en se reportant à la définition de l'intégrale de Lebesgue : 


ŒN - [au ) da (Y) 


et on aura en appelant T l'ensemble des points £ tels que LA = 
F(x, y) = Fi(x,y) + & (x, y) 


: fe FE GIaAr (ED | ui sie OC 


(1) Fréchet [9] p. 273. 


(2)Ilestaisé de voir que cette dérivée est une fonction mesurable-B (cf Lavallée 
Poussin {l] p. 67). 
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et en posant : 


* . PEVA 
EX (y) si x = x; est un élément de S; 
VISLE (y). = % (y) si x est un élément de (R;,-S,-S:) 
Hk (y) fonction de répartition arbitraire 


si x est un élément de S: 
on aura bien : 


AG vhs 1 Fx(y) d'A (€) 


COQ D 


En tenant compte de la note de la page précédente, on voit immédiate- 
ment qu'on peut choisir H,;(y) de manière que F,; (y) = Y (x,y) soit une 
fonction de la variable x B-mesurable, 


D'une façon plus particulière encore si Ô (x,y, À x)défini par 2.12 tend 
vers une limite unique quand À x tend vers 0, il est clair que cette limite 
sera nécessairement égale à Ÿ (x,y) si x est un point de l'ensemble R3-S:, 


ce qui prouve que {Sa (y)] est un système admissible de fonctions de 


répartition liées F,(y). 


4. — ENSEMBLE ADMISSIBLE DE FONCTIONS CARACTERISTIQUES 
LIÉES 


A tout ensemble admissible E de fonctions de répartition (F6) nous 


ferons correspondre un ensemble E' de fonctions caractéristiques liées 
{eu(v) ) telles que : 
g,(v) = Î e'"Y dF;(y) 


et nous appellerons E' ensemble admissible des fonctions caractéristiques 
liées, Comme par définition tout ensemble E de F,(y) vérifie (2.6) on aura: 


don (UV) G F(x, y) - ff (x +V)) 4 mL (y) à A(x) 


æ (u,v) = Î ets g,(v) d A(x) 


de même en faisant u = 0, on voit que : 


@ (0 »V) 5 Î œx(v) d A(x) 


où : 


5. — SURFACES DE PROBABILITÉ REMARQUABLES 


A) Deux v.a. X et Y sont dites indépendantes si, quels que soient 
x et y, on à . 
F(x,y) = A(x). B(y) 


Nous allons montrer que : Si deux v.a, sont indépendantes, on peut 
trouver un système admissible de fonctions de répartitionliées pour lequel 
Fx(y)_= B(y) quel que soit x et réciproquement, 


En effet, si je pose Fy(y) = B(y) j'ai d'après (2.9) 
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F(x,y) = ] B() 4 AG) 
= B(y). Ax) 


donc nous avons bien défini un système admissible de fonctions de répar- 
tition tel que (2.18) soit vérifiée. 


Réciproquement, s'il existe un système admissible de fonctions de 
répartition tel que F,(y) = B(y), alors (2.18) sera nécessairement vérifiée. 


Il en résulte que la condition nécessaire et suffisante pour que deux 
variables X et Y soient indépendantes, est qu'il existe un système admis- 


sible de fonctions de répartition [F;(v)} telles que : 


Fx(y) = C(y) (2.19) 


B) Ce résultat va nous permettre d'étendre au cas général d'autres 
notions qui n'ont été jusqu'ici bien définies que si le couple aléatoire X Y 
admet une densité de probabilité, 


Etendant des définitions de Serge Bernstein [1] 


Nous dirons que la v.a, Y est en corrélation dure, relativement à x 
si on peut trouver un système admissible de fonctions de répartition liées 


ET tel que, quel que soitx, on ait : 
F(y) = C [y - px)] (2.20) 


Nous dirons que la v,a. Y est en corrélation simplement élastique, 
relativement à x sion peut trouver un système admissible de fonctions 


de répartition liées {5 (9) } telque, quel que soit x, on ait 
Fx(y) =C [A (x).y] (2.21) 


plus généralement, 


Nous dirons que la v.a, Y est en corrélation isogène relativement à x 
si on peut trouver un système admissible de fonctions de répartition liées 


Fx(y) = © | AG. [y-e(x]) (2.22) 
C) Le concept de fonction de répartition liée va également nous 
permettre de généraliser la notion de régression linéaire ou parabolique, 


Y en x est rectilinéaire s'il existe un système admissible de fonctions de 


répartition [FR (y)) et deux nombres a et b tels que si nous posons 


y(x) [ n dÆ”(n) (2.23) 


on ait : 


VOOR RARE TRE (2.24) 


6. — QUELQUES PROPRIÉTÉS DES SYSTÈMES DE FONCTIONS DE 
RÉPARTITION ADMISSIBLES, RELATIVEMENT A 9 


1°/Ilest aisé de voir que : 


Si la courbe de régression des moyennes de Y en x est rectilinéaire 


et s'il existe un système de fonctions de répartition (& ()) admissible 
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relativement à la moyenne Ÿ { F(y)} = 11 y dF(y), alors on a : 
(RE (5) ] _=œ x +f (2.25) 


en effet, soit { Fx(y) } un système admissible de fonctions de répartition 
pour lequel (2.24) est réalisé, on aura : 


b + b 
il | f y ar | dF(x,0 ) - | (axtB) d F (x, ) 


donc ÿ F (y | CL RNE AP 6 b) est compris d'après le théorème de la 


moyenne entre &œa + f et ab +f8 etsalimiteinférieure @ LS; (»)] (ct 220) 
est aa + 


La démonstration continuera à s'appliquer si on remplace dans 2,24 
la droite ax+{3 par une courbe continue quelconque œp(x). Cette dernière 
remarque va nous permettre de généraliser la notion de régression, 


Définition : 
S'il existe un système (S) de fonctions de répartition &(y) admissible 


relativement à la fonctionnelle ÿ, nous appellerons courbe associée à la 
fonctionnelle Ÿ (et au système S) la courbe) : 


eg = 9 [8,6] 


En particulier si nous prenons pour Ÿ { F(y)} la valeur typique 
d'ordre k de la v.a. Y de fonction de répartition F(y) alors la courbe 


(x) = ia 6)} sera par définition la ligne de régression de la 
valeur typique d'ordre k de Fréchet (1) 


D'une manière plus particulière encore, si nous prenons 


6 [F6] - y ar(y) la courbe p(x) = # [95 (y) ] sera 1a ligne de 


régression des moyennes 
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CHAPITRE III 


NOTION DE GAIN D'INFORMATION 


1. — DÉFINITION DE LA NOTION DE GAIN D'INFORMATION 


A/ Nous partirons des notions exposées dans le chapitre précédent pour 
essayer de caractériser l'avantage que nous retirons de la connaissance 
complète d'une surface de probabilité F(x,y).A ceteffet,nous comparerons 
l'incertitude sur les fonctions de répartition liées (y) à celle sur la 
fonction de répartition marginale F ( o , y) = By) et parviendrons à 
démontrer que : 


Théorème 1. 


Pour tout système de fonctions de répartition liées ( D sible 
relativement à la fonctionnelle concave Ÿ et tel que Ô L/ & (IN ANCN(E ] 


existe quelle que soit la fonction de répartition Œ@ (x), et soit à variation 


bornée, alors : 
[sm ]= f 6 [en | aato 6.1) 


[sw 1-4 4 [am] - 4, 


de sorte que (3.1) s'écrit : 


Nous poserons : 


i NI, >= !) (3.2) 


l'inégalité (3.2) montre que si les conditions du théorème I sont vérifiées, 
l'incertitude relative àla v.a.Ÿ esttoujours plus grande ou au plus égale à 
la moyenne des incertitudes conditionnelles Ty,. Le fait de connaitre la 
valeur prise par la v.a. X entrainera donc en moyenne une diminution de 
l'imprécision de nos connaissances sur la valeur prise par Y. Nous 
traduirons ce fait fondamental en disant que la connaissance de la valeur 
prise par X, nous fait perdre de l'incertitude ou ce qui revient au même 
gagner de l'information - Et nous appellerons gain d'information la quantité 


Atesoye ME ME Tyhe L-4(62050 
Lemme auxiliaire I. F4(y) et F2(y) étant de la forme x (y) a & (x) (3.3) 
la fonctionnelle Ÿ [A y (y) +0 (= NN) Fo (y) ] existera et sera continue 
sur le Le de droite (F4 (y), FE (y). 
ÿ [x F (y)+(1-2)2& (»)] existera évidemment car elle est, elle 
aussi de la 1e Ver (y) 4 @ (x). De plus F, (yet E (y) étant fixées 
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ÿ [ XF (y)+(1-Xx)EP (y)] sera uniquement une fonction ® (x) du para- 
mètre À (0 À << 1 ) on aura : 
p(A)=9 [ur (y) + G-2x,) »)] 
p(A2)=9 [hr (y) + (1-22) Pi) ] 
Ecrivons que ÿ est une fonctionnelle concave, il vient : 
L{p [ur+G-xRE ]+6 [ru F6) +G-XIR6)] 
<p[htbr, (6) + qd pr, ()] 


F Lotto ]< [x] 


donc @ (À ) est elle aussi une fonction concave de À ; elle est de plus 
évidemment bornée, donc elle est continue (1) 


Plus généralement ES Fy) + Ào Foly) +------------ *r Xe Ep) | où 
Àyt Ào +... + Àp = 1 est continue sur la portion de l'hyperplan 
Le, (Fomri(io se Fp(y) | telle que : 
APE ee: + Àp = 0 = N'AEAI 
p-1 
SR Ne 1 
on le voit aisément en posant f (a) = So 2 Xi Fi (y) 


Lemme Il.Quels que soient le nombre Pr Dorone Pm pp = 1 Ze; = 


et les fonctions F: (y)_de la forme (3.3), on a : 
Dns[rol=s[Ènro)] 6.4 


Démonstration 


Par définition,on a Di ÿ Le, (y) | +9 [ r:6)] | — 9 HG LEE G) + Fe | 


Dès lors si F,(y), F(y), F3(y), KE (y) sont 4 fonctions de répartition de la 
forme (3.3), on a : 


L! ÿ Le, (y) ] +9 Lr:6) | +0 Lr,(y) | +9 Le] ] 
= 9 [ 6) + F6) é Foly) \ssal 1j [ 26) +86) | 


— 0 sis lan hill crie Se 


plus généralement : 


Sono [27 È n6)] 


(1) Hardy Littellewood et Polya Hi] p. 93. 
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En particulier,si F;(y), F2(y) ... En(y) sont données et si nous faisons 
dans la formule précédente : 


F4 (y) = F5;2 (y) SE = Frr(y) = F0) + F7) +44 + Fn(y) 
1livient : 


Ds [amlievs[iÈro]}<=s[1Sro)] 


120 [ro | = ÿ [LD F, (y) | (3.5) 


Dans le cas particulier où n,des Fy (y) sont identiques à F,(y),n, 
identiques à F(y) et nmidentiques à Fn(y) (n4 + no + nm = n) (3.5) prend la 
forme : 


d n: Ÿ Le, | +n,% [ #26) | +... +tnmÿ Lr+ 6) 


= ÿ [Er ()+... +25, ()| 
(3.6) 


Cette dernière inégalité démontre que, quels que soient les nombres p; 
rationnels, on a : 


> np [nh]e 1 [2rr6] (3.6) 


Or,de la généralisation du théorème I résulte que #est continue, donc (3.6) 
est vraie pour toute valeur de p; rationnelle ou non, ce qui démontre le 
lemme Il. 


Pour achever la démonstration du théorème I, remarquons que ÿ [8 (] 
est certainement mesurable-B, 


En effet, considérons la fonction D(e) égale à Ÿ Le (y | e)] si cette 
quantité est définie et égale à m dans le cas contraire, et attachons à chaque 
grille Gn un ensemble de nombres D (ex) et posons D: = D (en)cette fonction 
Dhest mesurable-B, car elle est constante dans chaque maille &, et 
ÿ [Fx (y)] qui est la plus petite limite de D est aussi mesurable-B, 


De plus, d'après le lemme II, on a, en choisissant convenablement 
les F;i(y) : 


>: 9 [F()| ei) ] Pr (ei)  B(y) (3.7) 
où les e; sont disjoints et tels que 33 Pre) 1 


Il suffira pour achever de prouver le théorème I, d'appliquer le théorème 
de Fatou. On a en effet : 


frmiint, Da) dore Î lim, inf. Dn(x).d F (x, 07 ) 


= [0 [#x (5) J-4r G&,œ) 


inégalité qui prouve (3.1). 


140 R. FERON - INFORMATION, REGRESSION, CORRELATION 


B/ Généralisation de la notion de gain d'information 


La notion de gain d'information précédemment définie par (3.2) présente 
l'inconvénient de n'être définie que s'il existe un système de fonctions de 
répartition liées admissibles relativement à la fonctionnelle ÿ. 


Or, si nous sommes bien arrivés à prouver qu'il existe toujours un 
système admissible de fonctions de sie liées, en revanche. on peut 
construire des exemples où [ F(y) | ei )] existe bien, quel que soit e; 
mais où néanmoins on ne peut nt utcee de système admissible, relati- 
vement à la fonctionnelle ÿ. 


Aussi généraliserons-nous la notion de gain d'information en donnant 
une définition de cette quantité qui ne fait intervenir que la notion de 


s 


probabilité liée à un intervalle (sans faire intervenir la notion de système 


admissible lié à un point). 


Nous aurons besoin dans nos démonstrations de considérer les 
ZM |) (3.8) 
où JE N = 1 
et nous énoncerons le théorème suivant : 
Théorème II. 


Si quel que soit Fx(y)défini par (3.8),la fonctionnelle concave Ÿ Lrx() | 
existe et reste comprise entre deux nombres donnés m et M, alors, quels 


que soient les intervalles disjoints ei tels que Z2:Pr (e;j) = 1, on a 


ÿ [B(n]- X 6 [rw lei] Pre) > 0 (3.9) 


s 


La démonstration de ce théorème est absolument identique à celle du 
lemme II. Il suffit pour s'en convaincre de lire la démonstration précédente 
en donnant aux F,(y) leur nouveau sens. 


Dès lors, nous appellerons gain d'information la borne supérieure du 
premier membre de 3,9 et poserons : 


AJ = borne sup. | ÿ [ 86) ] -5 9 LE (y | ei) | Pr(e;i) } (3.9) 
Remarque. 


La condition de concavité, qui figure dans le théorème II, n'est pas 
une condition accessoire. En effet, la condition nécessaire et suffisante 
pour que la quantité : 


borne sup. 1] [ 84 ae > o[r( (y | 5)]Pr(e;) (3.10) 
soit non-négative, pour tous les couples lente X Y pour lesquels elle 
est définie, est que @ soit une fonctionnelle concave, 


En effet, nous venons de voir que la condition est suffisante, Pour 
montrer qu'elle est nécessaire, supposons qu'il existe deux fonctions de 
répartition F;(y) et Fi(y) telles que : 


= ù ÿ LE.) ] EN, Lr:0)] | 9 [Er] 


alors si nous considérons le couple aléatoire X Y tel que : 


1 
Pr (CE x4 DE x (y) 


= 1 
Pr (X = x, Y y) =3 Fi (y) 
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Pr (X différent de x, et de x,) = 0 


il est clair que pour ce couple la quantité (3.10) sera bien définie et vaudra 
FE HE) 1 
sie} 116 [mG] +9 [rw]} 


quantité qui est négative, 


2. — CAS DE L'INDÉPENDANCE 


Nous avons vu au chapitre précédent que si 2 variables X et Y sont 
indépendantes, alors F(y | e;) = B(y) toutes les fois que Pr(e;) # 0, dès 
lors on voit immédiatement que la quantité : 


9 [BG] - X 6 [rt | ei) | . Pre) 


est nulle quels que soient les ei, sa limite AŸ sera donc nulle, donc si X et 
Y sont indépendantes, le gain d'information est nul 


A/ La réciproque n'est pas vraie. Il peut en effet arriver que X et Y 
ne soient pas indépendantes, bien que AJ soit nulle. Il en sera par exemple 


ainsi lorsque quelque soit ei, ( [B(y) | = Ô LF(y | ei)] 
1) Exemple I, 


Considérons le cas où la variance est prise comme mesure de l'incer- 
titude et supposons que quel que soit e la fonction de répartition F(y | e) 
ait une moyenne m et une variance o ? donnés d'avance ; dans ce cas on 


aura bien : Ü [ 86) | = Ÿ LE | e) | 


Cette propriété qui résulte immédiatement de l'hypothèse faite, 
résulte aussi du fait que si on considère un ensemble d'intervallese 
disjoints, tels que : 


Pile), =! Sr 13) 


on aura en notant de; et me; la variance et la moyenne de la v.a, de 
fonction et répartition F(y | ei) 


Ÿ = Î y dB(y) = 2ime; Pr(ej) = me; 


r$- [é-D'asm 5 [oëtime-#)] Pts) (6.12 


Dès lors siles fonctions de répartition F(y | e;j)ne sont pas identiques, 
bien qu'ayant même moyenne et même variance X et Y ne seront pas 
indépendantes. Et pourtant on a bien AJ = 0, si par exemple on suppose 
en outre que F(y | e;j) = F(y | ej) pour tout ejc ei. 


2) Généralisations 


a) L'exemple précédent est instructif car il nous montre que si nous 
supposons que F(y F e) a une moyenne constante alors quels que soient lese; 
vérifiant (3.11), (3.12) nous montre que : 


sde Pr (er) (3.13) 


et en passant à la limite on voit que AÏ = 0 
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Réciproquement, si sur un ensemble ej tel que Pr ej { 0 on a me; # Y alors 
(3.12) nous montre qu'on aura : 


AJ>E(me; - Y)° Pr (ej) 


La condition nécessaire et suffisante pour que AJ = 0 quand on prend 


la variance pour mesure de l'incertitude, est donc que / ydF(yle) soit 


= = ___————— 1] ——— ———_— _——_—__—_—_—— Û— 2 — 


b) Plus généralement si nous prenons le moment typique d'ordre k de 
Fréchet ml comme mesure de l'incertitude, on aura en posant 


mÊ) = min. Î | y-e l dB(y) (3.14) 
ml = min. / | @-b/* arF(y | e) (3.15) 


eten supposant que les ei vérifiant (3.11) 
k 
mŸ) = min. DE 1 |y-a | dF(y | ei) | Pr(e;) 
3 


et l'on aura toujours évidemment : 


EDS min. Î | y-b |* dF(y 


ej) | Pr (ei) (3.16) 


on ne pourra évidemment avoir le signe = dans (3.16) que si le minimum 
k b 
de chaque intégrale f | y-b; | dF (y | ej)estatteint pour la valeur a pour 


chaque e tel que Pr(e;} Z 0. Autrement dit, si a est valeur typique d'ordre 
k de la v.a. Yj qui a pour fonction de répartition F(y | ej). 


En raisonnant comme précédemment, on arrive ainsi à montrer que : 


La condition nécessaire et suffisante pour que AŸJ = 0 quand on prend 
le moment typique d'ordre k de Fréchet comme mesure de l'incertitude, 


——_—_—_ 1 —————.…—…"_ 12711 


les v.a,qui ont une fonction de répartition de la forme F(y | e) (toutes les 
fois que F(y | e) est défini). 

En particulier : 

La condition nécessaire et suffisante pour que À J-= 0 quand on prend 
l'écart moyen m (1) = min. |: | y- | dF(y) comme mesure de l'incertitude 


est qu'il existe une valeur a qui soit égale à l'une des médianes des v,a, Ye 
de fonction de répartition F(y | e). 


B/ Fonctionnelle strictement concave 
1/ Définition : 


Nous dirons encore que Ÿ est une fonctionnelle strictement concave si 


ÿ [eye] } ÿ ET + Ÿ [#6] (3.17) 


pour tout couple de fonctions de répartition F, (y) et F, (y) non identiques. 


. Autrement dit, on ne peut avoir le signe égal dans l'inégalité (1.3) que 
AE (SEE TOO 


NOTION DE GAIN D'INFORMATION 143 


Dans ce cas, on voit en reprenant les calculs du début de ce chapitre 
que l'on ne peut avoir le signe égal dans (3.9) que sitous les F(y | ei) sont 
identiques, On en déduit le théorème suivant : 

Théorème : 


Si on prend une fonctionnelle strictement concave comme mesure de 
l'incertitude, on aura AJ = 0 si et seulement si X et Y sont indépendantes, 


Au contraire, si 1) est une fonctionnelle concave sans être une fonction- 
nelle strictement concave, il existe des couples aléatoires X Y tels que 
AJ =0, sans que X et Y soient indépendantes, 


s 


2/ Application à l'entropie 


Supposons que le couple X Y soit susceptible de ne prendre qu'un 
nombre fini de valeurs (xi, yi) et soit p;; la probabilité du couple x;, y;. 
Dès lors, si nous prenons pour ( l'entropie, on aura : 


él ro ]--5 Pi LP; (3.18) 

Cette fonction étant définie, quelles que soient les probabilités p, des 

y; telles que Du pi=l,il est clair que Ÿ [ >, Ài Ex (y) | où DE 1 
sera bien définie. 


Or, ÿ définie par (3.18), est une fonctionnelle strictement concave. 
Eneffet si nous considérons une autre f.d.r. F”*(y) pour laquelle Y prendra 


les mêmes valeurs y; avec des probabilités pi DE P; = lon tauras: 


6 BITÉEMNE --X pi pis pipi 


or - x Lx étant une fonction strictement concave, on aura : 


+ 1. . + L 1 n : 
e PE L LEE 2 DS ES: Le,2 e, bp, EL | (3.19) 


et l'on ne pourra avoir le signe égal dans (3.19) que si p, = p; 
Il en résulte qu'on aura toujours : 
pijtpi pj +Pi 1 
72 pre À 2 x PAPER Lp/ | (3.20) 
et l'on ne pourra avoir le signe égal dans (3.20)que si tous les p; sont 
égaux aux pi. 


Autrement dit, on ne pourra avoir : 
p[eusetm].1) 4 [ru | +6[ rt] | 


que si F(y) = F*(y) 
Donc, si X et Y sont des v.a. discontinues susceptibles de prendre un 


nombre fini de valeurs,et si on prend l'entropie comme mesure de l'incer- 
titude, on aura AJ = 0 si et seulement si X et Y sont indépendantes, 


b) Considérons maintenant le cas où on prend l'entropie comme 
mesure de l'incertitude sur la v.a. Y possédant une densité de probabilité 
f(y) f(y) = F'(y)) bien définie et bornée en tout point, et posons : 


ÿ [r6)] =- À #6) 2 tt) à (G.21) 


3 
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et supposons que pour un couple aléatoire XY, ÿ soit définie pour toutes 
les fonctions Fy(y) définies par (3.8). (Il en sera notamment ainsi si 


FGyl = f(x,y) existe et est continue en tout point du plan et si de plus, 
LOC 


pour tout x tel que : 


: sue existe 
CU ETAPE ET 
l'intégrale : ; É 
Î st 2 so à (3.22) 


existe également), 


Dans ces conditions, si Fi(y) et F)(y) sont définis par (3.8) 
. ) ; Pres aussi, donc Ÿ Fi (y) L F2 ] existera. 


. Oo 
De plus, on aura évidemment si on pose 


Fi (y) = (y) F2 (y). #9) 
60) 5 40), 60) 500) — 1e Gpusp+abeE)] 
et l'on ne pourra avoir le signe égal que si f4(y) = f(y). 


Dès lors, on voit aisément que l'on ne pourra avoir : 


l 
9 ET ER | -2{6 [#6] +9 [rm] |} (3.23) 
que si fi(y) et fo(y) sont identiques, sauf peut-être sur un ensemble de 
mesure nulle E4. 
On aura donc puisque E, est de probabilité nulle : 


Fi(y) = F2(y) 


Donc dans ce cas, on aura encore AJ = 0 si et seulement si X et Y sont 
indépendants. 


3. — NOTION DE FONCTION UNIVALENTE 

La définition la plus naturelle qui vient à l'esprit est de dire que Y 
est fonction univalente de x si la valeur de Y est un nombre certain (x) 
quand on connait x, Mais de même qu'on est amené en calcul des probabi- 
lités à substituer à la notion analytique de convergence, d'une suite vers 
un nombre a, les notions de convergence en probabilité, de convergence 
en moyenne d'ordre k, de convergence presque sûre, de même nous serons 
aussi amenés à élargir la notion de fonction univalente de l'analyse, 


Diverses définitions sont alors possibles : 

Nous dirons que Y est une fonction univalente de x du type A. Si on 
peut trouver un système admissible de fonctions de répartition liées | Fx() } 
pour lequel quel que soit x il existe une valeur yo(x)_telle que : 

0 pour X 
a Ce pour y <Z yo (x) 
l pour y —= yo(x) 


Mais, en réalité, nous avons vu que nous obtenions des résultats plus géné- 
raux en nous passant de la notion de système admissible de fonction 
de répartition liée. 
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À cet effet, considérons un réseau linéaire sur l'axe 0x défini par un 
nombre illimité de grilles G1, G2... Gn. La grille G;, sera obtenue à partir 
de la grille G; en divisant chaque maille de la grille G en k partie égales. 
Les mailles correspondant à la grille G seront des intervalles semi-ouverts 
à droite et nous noterons par À}. une maille quelconque de Gn. Ainsi, un 
point x appartiendra à une maille {; de Gn et une seule de ces mailles, 
{,t, ...{? ... sont emboitées les unes dans les autres. 


Si 1°/ Quel que soit n F(y|/% ) est bien défini 
2°/ si Ypo désignant la v.a, de fonction de répartition F(y| 052) 


Ypo converge en probabilité (en moyenne d'ordre k presque sûrement) 
” vers une constante (1). 


Il est bien clair avec cette définition que si Y est fonction univalente 
de x au point x, au sens de l'analyse elle l'est à l'un quelconque des sens 
stochastiques ci-dessus, De plus, il est bien évident que si Y est fonction 
univalente de x au point x en moyenne quadratique ou presque sûrement 
elle l'est aussi en probabilité, 


De même, nous dirons que Y est fonction univalente de x en probabilité 
(en moyenne d'ordre k, presque sûrement) si c'est une fonction univalente 
de x pour un ensemble E de points x, dont la probabilité totale est unité, 


Nous dirons de plus que Y est fonction univalente de x au sens strict : 
a) en probabilité, b) en moyenne d'ordre k, c) presque sûrement. Si cette 
convergence est en quelque sorte uniforme, c'est-à-dire si à tout couple 
de nombres positifs € et n on peut faire correspondre un nombre N tel que 
pour tout n > N et tout xoon ait : 


è+€ 
a) max i dF(yl 65) 1-n 
a 


à > 


+00 
b) min. Î | y-a[* d F(y | #9 )<e 


a co 
c) on peut trouver a tel que les inégalités : 

à+E 

[are (8) 1-1 Y = nsuthstlisstt 

a-€ 

soient simultanément vérifiées, 


Ceci posé, prenons le moment typique d'ordre k de Fréchet comme mesure 
de l'incertitude, Il est bien évident que si Y est fonction univalente de x au 
sens strict en moyenne d'ordre k, alors, quel que soit Z on peut trouver un 
nombre N tel que n = N entraine : 


4 [re En) | = borne inf. EE dF(y |[én)—Ee 


(1) La définition que nous proposons présente toutefois un inconvénient. Il n'est pas 
prouvé que la définition de la fonction univalente stochastique soit indépendante du système 


de grilles choisi. 
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et ceci sera vrai pour tout intervalle {tel que .n>N et que P (XC #,) # 0 


dès lors on aura évidemment : 


D p[rwle)] P(&)<e 


s 


la sommation étant étendue à tous les intervalles de la grille Gh et par 
conséquent : 


borne inf. >, Ÿ LF( la) ] Pt) #0 


d'où on tire d'après (3,9) : 


[ 86) ] 


par conséquent si Y est fonction univalente de x en moyenne d'ordre k au 
sens strictetsi on prendl'écarttypique d'ordre k de Fréchetcomme mesure 


de l'incertitude, on a : 
D ORTT ETS [56] 


En particulier, si Y est fonction univalente de x en moyenne quadratique au 
sens Strict et si on prend la variance comme mesure de l'incertitude, 


on à : Adaetef 


Réciproquement, supposons qu'on prenne le moment typique d'ordre k de 
Fréchet comme mesure de l'incertitude et qu'on ait : 


 [B() | 
d'après (3.9), on a : 
borne inf, > ( L FC ei) Pr(e:)"="0 


Il est alors clair que quel que soit € on peut trouver des ensembles e; 


tels que D 1] LF(y | ei)] Pr(ei)—e et on pourra supposer puisque 
{ F(y | € ] l est supposé borné que les extrémités des ej ne sont pas 
points de discontinuité de F (x, o ). 


Considérons les intervalles semi-ouverts ai formés par les noeuds de la 
grille Gn et par les extrémités des ei ,il est "clair d'après le théorème II du 
présent chapitre que l'on a : 


ij À 
De L FC la] Pr(xC a JE 
et sauf peut-être pour un ensemble de œi) de probabilité totale inférieure 


à VE on aura ÿ LF( (y Has 1e VE c'est-à-dire que sauf peut-être 


pour un ensemble de valeurs de x de probabilité nulle, on aura pour 
tout point xo 


: ; k 
lim min. | y-a| dF(y 


n—> 00 a 


aÿ désignant celui des ai) qui contient xo autrement dit si AJ = [B(»)] 
quand on prend la valeur typique d'ordre k de Fréchet comme mesure d 
l'incertitude, Y est fonction univalente de x en moyenne d'ordre k, 
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En particulier, si AT =Y quand on prend la variance comme mesure de 
l'incertitude Y est fonction univalente de x en mo 


yenne quadratique, 


LECTURES RECOMMANDEES 


Le terme gain d'information apparait dans WIENER [1] sur les 
questions de convexité consulter HARDY LITTLEWODD et POLYA {1} 


y ba pb FE x ER Eite : ja 


(sain solace 1es Ÿ abus e2mi 


_ 
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. 
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CHAPITRE IV 


SUR UN SCHEMA PROBABILISTE 


1. — DESCRIPTION D'UN COUPLE ALÉATOIRE QUELCONQUE X Y 


Les surfaces de probabilités que l'on rencontre dans la pratique 
semblent, à beaucoup de statiticiens, trop compliquées pour être étudiées 
directement. Aussi essaient-ils de les remplacer par des surfaces de 
probabilité plus simples. 


A/ CORRELATION DURE. 


Dans le cas particulier où le couple aléatoire XY admet une densité 


2 
de probabilité f(x, y) - RE), S. Bernstein [1] a proposé un modèle 
simple qui englobe la plupart des modèles considérés avant lui, Il écrit : 
f(x;y) = a(x). ax(y) (4.1) 


et dit que X et Y sont en corrélation dure si : 


ax(y) = Y [ y + g6 | 
Autrement dit, les courbes a,;(y) sont superposables par une translation. 


Géométriquement parlant, une densité de probabilité peut être considérée 
comme une certaine masse répartie sur le plan des xy avec la densité 
f(x,y). ax(y) représente alors la densité sur les fibres élémentaires paral- 
lèles à Oy et Le fait qu'il y a corrélation dure se traduit en disant que les 
fibres élémentaires se déduisent les unes des autres par une translation, 


Nous dirons que la densité f(x,y) est alors produite par des fibres 
élémentaires réparties avec la densité a(x) sur l'axe des x et, engendrées 
par la translation de la distribution de masse Ÿ (y) le long de la courbe ® (x). 


Nous avons, au chapitre Il, généralisé cette définition et avons dit que 
X et Y sont en corrélation dure si l'on peut trouver un système admissible 
de fonctions de répartition liées tel que : 


Fx(y) = Ÿ [y + gt] (4.2) 
On voit aisément qu'alors on a : 


Pr[y = gt, xCT] =Pr(KC TI. ) (4.3) 
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et réciproquement si (4.3) est vérifiée, quel que soit E,F,(y) = V [y+ em] 
est un système admissible de fonctions de répartition. 


X et Y seront donc en corrélation dure si et seulement si (4.3) est 
vérifiée, 
B/ SCHEMA PROBABILISTE. 


Etant donné un couple aléatoire XY (supposé défini par P(E) ) et une 
fonction y = w (x) nous pouvons essayer de remplacer le couple aléatoire 
XY par un autre couple aléatoire X* Y* dans lequel X* Y* sonten corrélation 
dure, 


Le couple aléatoire X* Y* sera donc supposé défini par P*(E) supposée 
tellemques 


Pt ouih ceorl Pc) vin (4.4) 
a (9) +», | = pl y=owtmt+n|] (4.5) 


et ceci quels que soient T et h. 


En faisant T = R: on voit que Y (h) estentièrement déterminé par (4,5) 
puisque (4.4) donne alors : 


Y (h) = p*[ve Ge) + à | (4.6) 


2. — GAIN D'INFORMATION DURE ET ÉLASTIQUE 
A/ DEFINITION 


Nous pouvons caractériser la valeur du schéma probabiliste au moyen 
de l'incertitude. 


Nous avons vu en effet cf. (3.9) que l'ona AÏ= 0 


avec : N'J7= 0 [ 86) - borne inf. 2 Ÿ L F6) e;)| Pr(ei) (4.7) 


et ceci quelle que soit la fonctionnelle concave f. 


On peut écrire (4.7) : 


A3 =9 [BG] -0 [vu @]+6 [u@]-borneint X 6 [rt | ei) Pen) 
= Da. E (4.9) 


En posant : 


F(y |e) Hce (4.10) 
[86] -4 [v6)] 


ÿ [vw (y) | - borne inf. ÿ 9 L F6 | ei) | Pr(ei) 

Nous appellerons AŸ gain d'information totale, D gain d'information 
dure et E gain d'information élastique, et dirons que le gain d'information 
totale est la somme du gain d'information dure et du gain d'information 
élastique, 


On voit donc que ces quantités sont définies quelle que soit la fonction- 
nelle concave 


D 


E 
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B/ PROPRIETES DU GAIN D'INFORMATION ELASTIQUE ET DU GAIN 
D'INFORMATION DURE. 


1) Gain d'information élastique. 
On a, compte tenu de (4,4) et (4,5) : 
viy=P[r=o (+7 (4.11) 


donc Y (y) est bien une fonction de répartition, 


p lv +y, XC : 
F (y | ) Pre iyxe si P(XC e) {0 


F (y | e) = & (y) dans le cas contraire (où & (y) estune fonction de 
répartition arbitraire mais telle que ÿ[æ (y)1 est défini et borné, 
F, (y | e) est évidemment une fonction de répartition et on a pour lese; 
disjoints et tels que ei= R! 


2: Fily | ei) P(ei) = Y (y) 


Posons : 


On a d'après (3.6) 
ÿ [y Hl= X # ETC | ei] Pte:) (4.12) 
Il en résulte que : 


si quel que soit € on peut trouver des nombres ei tels que ej C e; entraine 


La condition (4,13) est absolument essentielle et nous supposerons 
toujours dans la suite que nous nous bornons à l'étude des fonctionnelles 
et des courbes w (x) pour lesquelles (4.13) est vérifiée. 


On remarquera que dans le cas où X est une v.a. discontinue pouvant 
prendre les valeurs x4, x) ... xn(c'est le seul cas où la fonction de répar- 
tition liée est définie au sens classique pour des ensembles ei; tels que 
D; Prei) = 1}), (4.13) est une conséquence de (1.2) - (4.13) s'écrit en 


TAHOE ai ÿ Fxi L y + & (xi) | = Ÿ L Ex (»)] (4.14) 


2) Gain d'information dure. 


Le gain d'information dure, au contraire, peut être positif ou négatif. 
Le fait que D est négatif signifie que le schéma probabiliste considéré est 
très maladapté au problème considéré. D mesure en quelque sorte le gain 
d'information apporté sur le couple aléatoire X Y par le schéma probabiliste 
envisagé. Il est d'ailleurs clair que nous sommes tout à fait bien informés 
sur X Y quand on connait toutes les fonctions de répartition liées (cas 
auquel le gain d'information est AJ ) au contraire la donnée du couple 
aléatoire X* Y* ne nous renseigne que partiellement. 


Et en effet, si (4.13) est vérifiée, on a toujours en vertu de (4.9) : 


DA 3 (4.15) 


3. — CAS OÙ L'INFORMATION ÉLASTIQUE EST NULLE 


A/ SI X ET Y SONT EN CORRELATION DURE ET SI 4.13 EST VERIFIEE, 
ON A E = 0, si on prend pour w (x) la ligne de régression @ (x). 
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En effet (4.3) est alors vérifiée. é 
On aura donc pour tout ensemble T tel que Pr(T) 4 0 
Y (y) = (y | T) 
donc quels que soient les ej tels que »vÉ ei = R; 


[vi ]-x6 [m6 | ei) ] pr(e:) 
ÿ [v G) | - borne inf. à: ÿ Le (y | ei) | Pr(ei) = 0 (4.16) 


CROSEED, 


B/ SI LE GAIN D'INFORMATION ELASTIQUE EST NUL, ON NE PEUT 
AFFIRMER QUE X ET Y SONT EN CORRELATION DURE. 


Un exemple suffira à nous montrer qu'il en est bien ainsi. 


et 


On prend la variance comme mesure de l'incertitude, 


a) Supposons que X est une v.a. discontinue pouvant prendre les 
valeurs x,, x,,... xnet soit FY; (y) les fonctions de répartition liées en ces 
points (on a vu que ces fonctions de répartition existent au sens classique) 
dès lors d'après (4.5) et (4.6), on aura : 


VG)= ZX FX | y+o (x) | Pr (2 x) (4.17) 


et la v.a. qui a pour fonction de répartition Y (y) aura une variance 


: _ 
Ty et une moyenne Ur. 


et on aura, si on prend la variance comme mesure de l'incertitude 


> - 2 : 
E = o°- borne inf. >, Ge. Pr(e,) 


avec + ej2= "R3 (4.18) 
où de, désigne toujours la variance de la v.a. Ye, de fonction de répartition 
F(y | ey) 

Or, d'après la formule (3.6), sie, = ej + ej' on aura : 


De Pr(e,) >= é Pr(e;j) + CEST Pre! 
On en déduit aisément que : 
n 
: A 
borne inf. > Tè Pr(e,) = > o? Pr (X=x;) 


où of dési ne l'écart type de la v.a. de fonction de répartition Fy. (y) de 
sorte que (4.18) s'écrit : 


1 (en ( AU na 1 Fy; [y + COX Pr(X=x;)- 7 œ ? Pr(X=x;) 


Il 


» Le [ n -© (x) - | dry; (n )- 2 o? Pr(X=xi) (4.19) 


1 


Or nous aurons : 


Lb-e (xi) -j| dE, (1) 0; (4.20) 
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le signe égal étant obtenu dans (4.20) si et seulement si : 
œ@ 


U +o (xi)= y d Fxi (y) 
00 
On en déduit aisément que : 


Théorème : 


La condition nécessaire et suffisante pour que E = 0 quand on prend la 
variance comme mesure de l'incertitude et quand X est susceptible de 
prendre un nombre fini de valeurs x,, x, ... xhest que : 


oG)=K+ | y dFy; (y) (4.21) 


où K est une constante arbitraire, 


b) Cas où le couple X Y admet une densité de probabilité f(x,y). 


Nous serons alors obligés évidemment de supposer p (x) mesurable au 
sens de Lebesgue, mn 


Dans ces conditions, les intégrales y? f(x,y) dy étant supposées 


—00 
toutes bornées, on voit aisément que l'on aura encore : 
 ? EGey) dy 
POS: px) = K + 2 _— 
[sc à 
_ 00 


en tous les points où le dénominateur n'est pas nul. 


4 — GÉNÉRALISATION DES NOTIONS PRÉCÉDENTES 


A/ RETOUR A LA NOTION DE CORRELATION DURE : 
Il est aisé de démontrer que : 


La condition nécessaire et suffisante pour que YŸ soit en corrélation 
dure, relativement à x (cf. définition p. 2.15) estqu'ilexiste une fonction 


univalente de x, @(x) telle que la v.a. Y- æ (X)_ soit indépendante de X, 


En effet,la condition nécessaire et suffisante pour qu'on puisse trouver 
pour le couple aléatoire (X, Y) un système admissible de fonctions de répar- 
titions liées { F,(y) } tel que F;(y) = C [ y + (x) ] est que l'on puisse 
trouver pour le couple (Y - æ@(X), X) un système admissible de fonctions de 
répartition liées [9% (y)] telles que 8, (y) = C(y) et d'après le théorème 
de la p. 2.14, la condition nécessaire et suffisante pour qu'il en soit ainsi 
est que les v.a. Y-@ (X) et X soient indépendantes, 


Dire que l'on peut remplacer en gros la surface de probabilité consi- 
dérée par une surface de probabilité en corrélation dure équivaut donc à 
dire que les v.a, Y- @ (X) et Y sont grossièrement indépendantes, 


La fonction de répartition de Y - &w (X) n'est autre que W (y) comme on 
le voit d'après (4.11). Il en résulte que : 


D = H-H on (4.23) 


E = Jow(x) - borne inf, X @[F(y | eJPr(e;) (4.24) 
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B/ GAIN D'INFORMATION RELATIF AU SCHEMA DE LA CORRELATION 
ISOGENE. 


Le principal intérêt du schéma précédent est de nous permettre de 
construire très rapidement divers schémas simples, plus généraux que lui. 


Ainsi la condition nécessaire et suffisante pour que Ÿ soiten corrélation 
isogène relativement à x (cf. définition p.2.17)est qu'ilexiste deux fonctions 


PK 


univalentes de x: œ(x) et À (x) telles que la v.a. Ie soitindépendante 
de X. A X} x 


Dès lors, étant données deux fonctions w(x) et u(x) on pourra définir 
des quantités D et & analogues aux quantités D et E définies précédemment, 
On aura : 


? ee Ÿ = #{X) (4.25) 
ge (X) 


ë Jr 0 borne inf. 2 ÿ L FE | ei) | Pr(e;) (4.26) 


on sera alors amené à poser : 


. do-r[rent [o&@ + y]] (4.27) 
r[ y | e] #E | Y ÉERCS +] Ve e| 


si P(XC e) { 0. Mais ici on n'a plus &2>0. 


Il en résulte une sérieuse difficulté pour dire qu'un schéma de corré- 
lation isogène est meilleur qu'un autre, 


Certes, on peut toujours démontrer que : 


La condition nécessaire et suffisante pour que Y soit en corrélation 
isogène, relativement à x est qu'il existe 2 fonctions univalentes de x œ(x) 


et À (x) telles que la v.a. TX , soit indépendante de X. 


et que par suite, si Y est en corrélation isogène par rapport à x, on pourra 
trouver un schéma probabiliste tel que : 


re 


co. 40 (4.28) 

Mais la réciproque n'est pas vraie, Et on pourra construire des 
schémas probabilistes qui donnent une idée tout à fait inexacte de F(x,y) et 
qui néanmoins sont tels que (4.28) soit vérifiée, 


LECTURES RECOMMANDEES 


Les personnes désireuses de connaitre les diverses généralisations de 
la loi de Bravais (définie dans Bravais [1] )lirontavecfruitBernstein [1]. 


Sarmanov [1] Prétorius [1] Narumi [1] Risser [1] 


CHAPITRE V 


DE LA REGRESSION 


1. — NOTION DE LIGNE DE REGRESSION 


A/ LA DEFINITION CLASSIQUE DE LA LIGNE DE REGRESSION - 
SES GENERALISATIONS.,. 


Généralement, on ne parle que de la ligne de régression de la moyenne 
de Y en x d'un couple aléatoire possédant une densité de probabilité 


f(x,y) = à (x). ax(y) (5.1) 


La ligne de régression des moyennes est alors la courbe : 


p (x) = Î y ax(y) dy (5.2) 


Lee] 
2°) Conception de Cramér. 


Pour Cramér, la notion de valeur typique est quelque chose de vague, 
C'est une quantité qui, comme la moyenne, la médiane ou le mode, peut 
être considérée comme le ''point central'' de la distribution (Cramér [1] 
p. 178). Dès lors, pour lui, la ligne de régression de Y en x sera définie 
dans deux cas particuliers. 


a) Quand le couple aléatoire XY possède une densité de probabilité f(x, y) 


On considère alors la valeur typique (Yx) de la v.a, Yx qui a pour 
densité de probabilité a,(y) définie par (5.1). La ligne de régression de Y 
en x est alors donnée par la courbe : 


u (4) = &(1) (5.3) 


b) Quand X est une variable discrète (cf. Cramér Ki p.272). 


La fonction de répartition liée au point x telque P(X = x;j) # 0 est alors 
déterminée comme il:est dit au chapitre Il (p. 210) ; soit F(y | Xu=Ef;) 


cette fonction de répartition. Alors la valeur typique G(Yx;) de la v.a, Y; 


de fonction de répartition F(y | X = xj) sera bien déterminée. Cramér 
propose d'appeler alors ligne de régression, la courbe obtenue en joignant 
par des segments de droite les points consécutifs (x;, & (Yx;) (xx, & (Yx,). 
3° Première généralisation de la notion de régression. 

Nous avons déjà donné cette généralisation p. 134 , le progrès est 
double, 
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a) La notion de valeur typique est bien précisée, c'est la valeur typique 
d'ordre k de Fréchet, ; 


b) La ligne de régression est bien définie dès qu'il existe un système de 
fonctions de répartition | F\(y)!} admissible relativement à la valeur 
typique d'ordre k de Fréchet (autrement dit la fonction de répartition du 
couple aléatoire XY peut être absolument quelconque), 


Pour distinguer les lignes de régression définies par ce procédé, de 
celles que nous allons définir maintenant , nous lesnommerons anciennes 


lignes de régression. 
B/ NOUVELLES LIGNES DE REGRESSION, 


1) Leur détermination. 


Nous avons vu au chapitre IV, qu'un schéma probabiliste pouvait $tre 
considéré comme d'autant meilleur que D est plus grand, On sera donc tout 
naturellement amené à choisir la courbe & (x) de sorte que D soit le plus 
grand possible, Ceci étant, nous adopterons la définition suivante : 


Définition : 


Nous appellerons nouvelle ligne de régression relative à la mesure @ 
de l'incertitude, toute fonction y = & (x} telle que le maximum D" de D soit 


atteint. 


Plus précisément, comme nous voulons que D ait un sens, nous serons 
amenés à rechercher les fonctions & (x) mesurables LLtelles que à Ce )] 
soit minimum quand (cf. 4,11) : 


Ÿ (y)=P [v< &@ (x) + y] 
Il convient dès à présent de remarquer qu'en vertu de (1,2), si y =&@ (x) 
est une nouvelle ligne de régression y = & (x) + à en est une également, On 
aura donc toujours non pas une nouvelle ligne de régression unique, mais 


une famille de telle lignes, IL est d'ailleurs aisé de voir que l'on peut 
retrouver ainsi les lignes de régression classiques, 


Exemple I. 


Recherchons d'abord l'ensemble des nouvelles lignes de régression 
quand on prend la variance comme mesure de l'incertitude, 


On aura alors à rechercher la fonction & (x)mesurable L, ettelle que : 


( [v w) | = Î (y ) a Ÿ (y) minimum (5.4 


Quana : e- +® 
Y = y a (y) 5.5) 


— À 


où W (y) est donnée par 4.11, : 
Et comme & (x) est supposée mesurable L,, on aura À K(y)} désignant 
un système admissible de fonctions de répartition liées : 


pe [ an [rt0] | a a60 (5.6) 
y TM [ var | y +« &] | a 46) (5.0 
[ | 
ns. 


Y () 
d'où : 


12 
EL 


. 
. 


| K-s a] 4 Q à A(x) 
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= Yhans lotus) (5.8) 


en posant : 


| 
il 
—, 

< 

a 

Hj 
a 
ee 


(5.9) 


€ 
Æ 
il 


ets: 
ft d'A (£) (5.10) 


(5.4) s'écrit donc : 


6 [w(] - | fo-v+s Dar [y+0(6] 44 (x 
fEs-v-ot +5 (9 ] à (u) } aa 69 


ou en posant : uw (x) - © (x) = K (x) (5.11) 


6 [ww] aefen) fts-œ+%00 )] arc(u) }4dAG%) (5.12) 


et il est clair que le minimum de 18 ) | sera atteint si toutesles 


L: 2 
intégrales Î u - BE: + X (x) | | d F,; (u) sont minimum, ce qui se 


produira si Y + X(x) = | y dF, (y)ou w(x) = y dFx(y)+C° (5.13) 


Il convient toutefois de remarquer que ce calcul ne sera valable que si 
on peut trouver un système admissible de fonctions de répartition liées tel 
que toutes les intégrales utilisées aient un sens, ce qui n'est pas du tout 
évident. 


De plus, notons que si le minimum de (5.12) est atteint pour une 
fonction X°, ille sera pour toute fonction %; Fe) qui ne diffère de X(x) que 
pour un ensemble de valeurs de x de probabilité nulle, 

La réciproque est d'ailleurs vraie si sur un ensemble T telque P(XC T) { 0, 
ona Xo(x) # X (x) alors le minimum de ÿ Lu (y) | ne sera pas atteint 
pour (x). On peut donc énoncer le théorème suivant : 

Théorème : 


Si l'ancienne ligne de régression des moyennes pe (x) existe et si, de 
plus, toutes les intégrales dont il a été question plus haut ont un sens, la 
famille des nouvelles lignes de régression relatives à la variance comprend 
les courbes définies par : 


1°) Les fonctions (x) = px) + cte 


2°) Les fonctions de w) (x) telles que w)(x) ne diffère d'un w4 (x) 
donné sur un ensemble de probabilité nulle. 


Exemple Il, 


Prenons comme mesure de l'incertitude le moment typique d'ordre k 
de Fréchet, on aura alors : 


ÿ [y (y) - min. | | y-a | dY (y) 


nu. Î FE | y-a- & Go) |" r,(ÿ | d A (x) (5.14) 
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et le minimum de [vw (») | sera encore atteint quand le minimum 
de k | y-a- & (x) | nb: F, (y) est atteint, autrement dit si a + (x) est 


l'une quelconque des valeurs typiques d'ordre k de la v.a. Yx de fonction 
de répartition F,y (y). 


réserve de conditions d'existence) : 


1°/ La famille des courbes &}(x) parallèles à toute ancienne ligne de 
régression fl (x) 


w (x) = u (x) + K 


2°/ Lafamille des courbes wy(x)tellesque wo(x)ne diffère d'un w4(x) 
que sur un ensemble de probabilité nulle. 


L'application la plus importante de ce théorème se rencontre quand 
LACET (x) est alors une ligne de régression des médianes, La médiane 
n'étant pas nécessairement unique, il en sera de même de h (x). Dans ce 
cas, on pourra prendre pour (x) une courbe parallèle à l'un quelconque 
des h (x) possibles. 


Remarque : 


Il y a lieu à notre sens de nous féliciter du fait que l'on n'obtient pas 
une nouvelle ligne de régression unique mais une famille de telles nouvelles 
lignes de régression car ceci nous montre qu'un très important groupe de 
propriétés des anciennes lignes de régression appartient aussi à d'autres 
courbes (les nouvelles lignes de régression). 


La principale différence entre les anciennes et les nouvelles lignes de 
régression tient au fait que les premières sont définies à l'aide de la donnée 
d'une caractéristique fonctionnelle de position (Les c.f. relatifs aux v.a, X 
et X +a doivent être = et = +a), les secondes à l'aide d'une incertitude.Il est 
toutefois également possible de définir les anciennes lignes de régression à 
l'aide de la donnée d'une incertitude. 


On peut ainsi définir l'ancienne ligne de régression de la moyenne 
comme étant la courbe définie par la fonction u* (x) qui rend minimum : 


2 

Nova (x)] (5.15) 

Et plus généralement, l'ancienne ligne de régression de la valeur typique 

d'ordre k=> 1 comme étant la courbe définie par la fonction u* (x) qui rend 
minimum : k 
m| x -p@| 

Information dure et élastique quand (x) est une nouvelle ligne de 

régression. 


Il est clair que si on prend la variance comme mesure de l'incertitude, 
on à : 


D’. a Rx m0 (5.16) 
plus généralement, cette propriété sera encore vraie si on prend la valeur 
typique d'ordre k comme mesure de l'incertitude, Les diverses intégrales 
étant supposées exister, on a en effet, en tenant compte de (5,15) : 


ET = Jon = MIy, 


min, [| y -@+e60 [ar] aa 
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Il n'en sera pas de même si ÿ est une fonctionnelle strictement concave 
(4.12) s'écrit en effet alors : 


6 [vOÏ=X [8 &lei)] Pr(e:) (5.18) 
et l'on ne peut avoir le signe égal dans (5.18) que si : F4 (y |ei) = Ÿ (y) 
pour tout ej tel que P (ei) Z 0;si donc nous supposons que (4.13)a lieu, nous 
ne pourrons avoir E* = 0 que si Y- w (X) estindépendante de X, c'est-à-dire 
si Y est en corrélation dure par rapport à x. 


2. — NOTION DE DROITE DE REGRESSION 


A/ LA DEFINITION DE LA DROITE DE REGRESSION. 


1 - Anciennes droites de régression, 


Dans (5.15), nous avons pu définir une ligne de régression des moyennes 
quelconques. Mais on peut remarquer que dans (5.15)on peutimposer b (x) 
d'être une courbe continue, d'être dérivable, d'être une courbe d'une forme 
analytique donnée, une parabole ou une droite par exemple,Dans ce dernier 
cas, on obtiendra pour H*(x) l'ancienne droite de régression ajustée par la 
méthode des moindres carrés. 


On aura donc pour déterminer cette ancienne droite de régression à 
déterminer les valeurs a b*' de a etde b qui rendent minimum N|(Y-a -b X }; 
la droite de régression ainsi obtenue sera : 


Ent tx 
da es cas (5.19) 
Oy O x 
où g,x et oy sont les écarts types de X et Y, 
e leur coefficient de corrélation linéaire, 


On peut évidemment généraliser cette notion de la même manière que 
la précédente et chercher les valeurs a* et b* de a et b telles que 


k 
M | Y-a-b X soit minimum. 


En particulier, si k = 1, on obtientainsi la droite des moindres écarts. 


2 - Nouvelles droites de régression, 


Nous pouvons, dans le schéma probabiliste considéré au chapitre IV, 
imposer à (x) d'être d'une forme analytique simple, par exemple d'être 
une droite, 


Nous essaierons de déterminer l'ensemble des valeurs a* b* de a et b 
pour lesquelles le maximum D} de Dest atteint quand on astreint w(x) à 
être de la forme w(x) = ax + b et nous appellerons nouvelles droites de 
régression relative à la mesure Ÿ de l'incertitude, celles des droites ax + 
qui rendent D maximum. 


Il est clair que (4.11) s'écrira : 
Y(y=P|Y=ex 6 $ + y] (5.20) 


et que D sera précisément obtenu quand p[v (»)| est minimum. 


Or, en vertu de (1.2), il est clair que si a* et b* sont des valeurs 
de a et b telles que ÿ[Y (y)] est minimum, il en sera de même de 
a* et b* + c et ceci quel que soit c, autrement dit, quel que soit 6, dix + 
sera elle aussi une nouvelle droite de régression relativementà l'incertitude 


9 [F()] 


14 
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La famille des nouvelles droites de régression coincide donc avec la 
famille des droites (a* x + ©) parallèles aux droites a* x rendant D maximum 
quand on impose à w (x) d'être de la forme & (x) = ax. 


B/ EXEMPLES : 


En particulier, on peut prendre pour Ÿ L(y) | un écart typique 
d'ordre k. On voit immédiatement que : 


Si nous prenons la variance comme mesure de l'incertitude, les 
nouvelles droites de régression sont les parallèles à la droite de régression 
classique (droite ajustée par la méthode des moindres carrés), 


De même, sinous prenons l'écart moyen comme mesure de l'incertitude, 
les nouvelles droites de régression sont précisément les parallèles à la 


C/ DECOMPOSITION DU GAIN D'INFORMATION 
On peut évidemment écrire : 
AT D ED - DA. (5.21) 


et si (4.13) est vérifiée, les quantités D* , D* - D, E* sont toutes trois 
non négatives. 


La quantité D* - DŸ mesure en particulier l'information gagnée en 
remplaçant le schéma probabiliste où w(x) est assujetti à être une droite 
par un schéma probabiliste où w (x) est quelconque (1). 


Ainsi, le fait de remplacer le schéma probabiliste où &w (x) est une 


courbe quelconque par un schéma probabiliste où on impose à &w (x) d'être 
* * 
une droite,sera d'autant plus justifié que le rapport 2 sera plus petit, 
Si ce rapport n'est pas jugé assez petit, nous pourrons trouver un 
schéma mieux adapté de la manière suivante : 


D/ REGRESSION PARABOLIQUE : 


Supposons maintenant que nous imposions à & (x) d'être un polynôme 
de degrén 


o(æ home duibua dx ét doadx | (5.22) 


et que nous déterminions les ValeureRa Nat. "nrastdea;,lta)r sanstelles 
que le maximum D; de D soit atteint. 


On voit comme précédemment que si : 


af + a x + ... a* x" est une nouvelle parabole de régression de degré n, 
il en sera de même de : 


CN ax +... af x et ceci quelle que soit la fconstantenC: 


Nous dirons que D*est le gain d'information parabolique d'ordre n 
relatif à l'incertitude [F 


Il est clair que le gain d'information parabolique d'ordre m est plus 
petit ou égal au gain d'information parabolique d'ordre n sim—n 


* ‘ 
Dé Des mien (5.23) 
(1) Dans le cas particulier où on prend la variance comme mesure de l'incertitude 


onda DC NDT ENT [+ COM IEEE aX]* autrement dit, on peut trouver cette valeur, 
connaissant seulement F(x,c) et les nouvelles lignes de régression. 
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On remarquera que (5.22) peut s'écrire : 
NR= D Dr =D d,.: Ft DD + D -Di+E” (5.24) 


Autrement dit, dans la pratique on pourra se faire plusieurs représen- 
tations de plus en plus précises de la surface de probabilité en prenant 
pour & (x) des polynômes de degrés de plus en plus élevés, L'intérêt de 
la formule (5.24) est de nous indiquer à quel moment nous pourrons nous 
considérer comme satisfaits car nous pouvons à chaque fois évaluer à la 
fois l'information que nous avons effectivement gagnée D - D“ et 
l'information qui reste à gagner D* - D*. 

DD: 2 
ne NS est inférieur à 
un nombre donné. Cecin'est d'ailleurs peut-être pas la seule considération 


qui doit entrer en ligne de compte, on peut aussi songer à s'arrêter 
DS - Das 
D” 


Nous pourrons par exemple nous arrêter quand 


simplement parce que estirropipetitesetc... 
Remarque : 


Au lieu d'imposer à w (x) d'être un polynôme, on peut évidemment lui 
imposer d'avoir une autre forma analytique simple donnée, dépendant d'un 
certain nombre de paramètres. 


BIBLIOGRAPHIE 


sur les définitions classiques de la notion de régression, voir : 
Brambilla à Cramér [1] Pompilj [1] Salvemini [2] Jordan [4] 


_. 


nsse us coma. © 


€ 


"de 45 d'u (St 1] 2 x LraLLLT 4 
. RE dent ere 
Eu torthr FOUT CA | 
. 
sb ,9%2b inemeiua. 
fg de euliy ab axrokt 
cryogsesb (x) ur 
db ns (25.2) sua 
ir0tsilen erarrto re 
sub sp nome rt 
is '} 7 Fendi 


« Lrhe + É 


ogrrrtth et. 
not 240wva&/h £ 
2 c - 


L re St do ia noi sua 


sd D 
JN128 70 - A 
sé 
Le 
=, 


Lyter LÉ ne d 


PAL 


pété déni ses nt 
fois DL Sn her LAPS 


ipore dé né ner e “ait M4, 


CHAPITRE VI 


DE LA CORRÉLATION 


Supposons que nous désirions nous faire une idée de la valeur que 
prendra un certain caractère aléatoire Y, par exemple la taille d'un 
garçon quand il aura atteint l'âge de 20 ans. 


Nous pourrons avoir une idée a priori de cette taille par la fonction 
de répartition B(y) des tailles de tous les hommes de 20 ans. Mais nous 
nous ferons une idée meilleure de cette taille si nous connaissons la 
taille x du père du garçon et la fonction de répartition conditionnelle F, (y). 
Le problème que se pose le praticien est de juger de la valeur du rensei- 
gnement supplémentaire ainsi obtenu. Ce problème est d'importance car 
au lieu de dépenser notre temps et notre argent à évaluer la taille du fils 
à l'aide de celle du père, nous pourrions l'utiliser à évaluer la taille du 
fils au moyen de celle de la mère, etc... 


1. — INDICES DE CORRÉLATION 


A) DEFINITION : 


L'avantage que nous apportera la connaissance de la valeur prise 
par X sur la connaissance de la valeur que devra prendre la v.a, Y peut 
s'exprimer comme le rapport du gain d'information que nous avons effec- 
tivement réalisé à celui que nous pouvions espérer réaliser quand nous ne 
connaissions que la fonction de répartition de Y, C'est ce rapport que nous 
appellerons indice de corrélation C, on aura par définition : 


PR 
César (6.1) 


où Max A désigne le maximum que AT est susceptible d'avoir quand on 
sait seulement que Y a pour fonction de répartition B(y). 


B) EXEMPLES : 
1° On voit immédiatement que : 


Si on prend la variance comme mesure de l'incertitude, nous obtenons 
pour C le carré T?du rapport de corrélation de Pearson toutes les fois que 


ce rapport est défini, 
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a) En effet, au sens classique n? n'est défini que si X est une v.a, 
discontinue susceptible de prendre les valeurs x, ... Xi; ... XmaVecC des 


m 
probabilités positives p,, ni es pi = 1) et si de plus les moments liés 
T 


mQ) = Î y? dFy;; (y) existent : le carré du rapport de corrélation 


2 2) 
(ex => CR 
de Pearson sera alors : 7 = \r 2m i (6.2) 
o 2 
en posant : 2 Y } 
Ty =min (y-a) dF (œ ,y) 
a 
2 : 2 
DE moine (y=bi)ed Ex; (y) 


î 
Et on reconnait au numérateur la quantité AI 
De plus, la fonction de répartition de Y étant donnée, on doit avoir 


max À ER puisqu'une variance ne peut être négative ; mais quand Y 


est fonction univalente de x(cf. définition ch.Il)on a ce = Odonc 2 pic : = 0 


2 

yÿ° 

b) Dans le cas où X n'est plus une v.a. discrète, nous continuerons à 
av) 

Max AIT 


il en résulte que max AIT =0o 


appeler carré du rapport de corrélation de Pearson la quantité 1° = 
toutes les fois que cette quantité sera définie, 


c) Le carré du rapport de corrélation de Pearson ainsi généralisé jouit 
d'importantes propriétés. 


1° Si X et Y sont indépendantes, on a n?2=0 (c'est bien évident 
puisqu'alors AJ= O0. 


2° Mais la réciproque n'est plus vraie, On peut même montrer que 
quand n?existe la condition nécessaire et suffisante pour que n = 0 est que 


F(y | e) est défini (cf. théorème p, 3,8) 


Si n? et l'ancienne ligne de régression des moyennes existenttous deux, 
il faut et il suffit pour que n°? = 0 que l'ancienne ligne de régression des 
moyennes soit parallèle à Ox (1), 


3° Si Y est fonction univalente de x en moyenne quadratique au sens 
strict, alors n2= 1, 


En effet, d'après la fin du chapitre III, le numérateur de n? estnéces- 
sairement alors égal à T'Y. 


4° Réciproquement, si 1? = 1, Y est presque certainement fonction 
univalente de x en moyenne quadratique au sens large, (cf. démons- 
tration chapitre Ill). 


On remarquera qu'avec la définition classique de "dans laquelle on sup- 
pose que X ne peut prendre qu'un nombre fini de valeurs x; avec des probabi- 
lités positives p ,les conditions précédentes peuvent se simplifier.En posant 
Fx; (y) = Pr (Y << y | X = x ) on a en effet toutes les fois que n° est défini. 


(1) On dit alors que Y est indépendante de X en moyenne. 
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1) 2) La condition nécessaire et suffisante pour que n°? = 0 est que 
la moyenne liée Ve J y d Fx; (y) soit constante (1). 
3) 4) La condition nécessaire et suffisante pour que n?= l'est qu'il 
existe un nombre © (x;) tel que : 
0 pour y  p(x;i) 
Fy; (y) = 
l pour y — (x) 


2° Plus généralement, prenons l'écart typique d'ordre k de Fréchet 
comme mesure de l'incertitude, on obtient alors comme précédemment un 


indice CU - 2 jouissant des propriétés suivantes : 
1) Si X et Y sont indépendantes :cÙ 2 0 


2) La condition nécessaire et suffisante pour que cw = 0 est qu'on 
puisse trouver une quantité a indépendante de e et telle que le minimum 
par rapport à b de É y-b L dF (y | e) soit obtenu pour b = a et ceci 
pour tout ensemble e pour lequel F (y | e) est défini. En d'autres termes 
que les v.a. Ye de f. de r.F(y | e) aient toutes une valeur typique d'ordre k 
commune, 


3) Si Y estfonction univalente de x en moyenne d'ordre k au sens strict, 
alors C\Y=1, (1) 


4) Si c( - 1, Y est fonction univalente de x en moyenne d'ordre k au 
sens large. 


En particulier, si k = 1 et si X est une v.a. pouvant prendre unnom- 
bre fini de valeurs xj avec des probabilités positives p;. 


1) 2) La condition nécessaire et suffisante pour que cW=0 estque 
la valeur typique liée d'ordre k de Fréchet soit constante (On appelle valeur 
typique liée d'ordre k de Fréchet au point x;j celle des quantités ai qui rend 
minimum l'intégrale Î | y - ai | d Fx; (y). 

3) 4) La condition nécessaire et suffisante pour que CK = 1est qu'il 
existe un nombre @ (x;) tel que : 

0 pour y = p(xi) 
Fx; (y) 
1 pour y ==  (xi) 
Si k = l les conditions 3) 4) restent inchangées mais on doit légèrement 
modifier les conditions 1) 2) pour tenir compte du fait qu'on n'a plus 
nécessairement une seule valeur typique;la condition 1) 2) deviendra 
alors 

1) 2) La condition nécessaire et suffisante pour que C")"="0 est 
qu'on puisse trouver une quantité a, égale à une médiane liée pour toutx:; 
(on appelle médiane liée à xi toute médiane de la v a Y;; de f. der. F;; (y)). 


3° Supposons enfin que les v.a. X et Y sont totalement discontinues et 
susceptibles de prendre seulement les valeurs xj, yj et que nous prenons 
l'entropie comme mesure de l'incertitude, 


Soient : 
Pi: la probabilité du couple xi, y; 
j 


(1) Ceci tient somme toute uniquement au fait que, si on prend le moment typique 
d'ordre k de Fréchet pour une mesure de l'incertitude la condition V p.120 est elle 


DR 2 a 
aussi vérifiée, 
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Pc la probabilité marginale de X = x pi. = 23 Pi; 

P: la probabilité marginale de Y = y; pj = ZX Pij 

J 

IE la probabilité conditionnelle de yj quand on sait que 
on à : s le 

ble vo (à P; | PR 

Si nous prenons l'entropie comme mesure de l'incertitude ,nous aurons : 

Commeona0 = p;|; honor a Pjli Lo bi << 0 et le maximum 
de cette quantité sera précisément égal à zéro et sera obtenu quand tous 
les Pjli sont nuls à l'exception d'un seul qui est égal à 1. On aura donc 

É AT 
Cas Max.AI 


PB L'p.j+ 2: Pi. 2; 


Et en tenant compte des résultats du chapitre II,on voitque C estun indice 
qui vérifie les conditions de Fréchet, c'est-à-dire que c'est un nombre 
compristentre Oletl'etique lon a 


102) 2°) C = O0 siet seulement si X et Y sont indépendantes. 


32) 4°) C = 1 si et seulement si Y est fonction univalente de x 
(c'est-à-dire si pour toute valeur de i un seul des Pi, est différent de zéro), 


2. — INDICES DE CORRELATION DURE 


A) DEFINITION : 


Mais nous avons vu que dans la pratique on pouvait se faire une idée 
moins précise, mais plus simple de la dépendance qui existe entre X et Y 
en remplaçant le couple aléatoire XY par un couple aléatoire X* Y* tel 
que Y* soit en corrélation dure relativement à x comme il est expliqué 
aux chapitres IV et V. Nous avons vu que nous pouvions faire cette subs- 
titution de différentes manières plus ou moins précises et que le gain 
d'information relatif à ces divers schémas probabilistes ne peut être 
supérieur à AJ 


Ceci posé, il est utile d'avoir un indice capable de caractériser la 
valeur des schémas probabilistes considérés au chapitre V. La valeur d'un 
schéma donné ou indice de corrélation dure Cp s'exprimera comme le 
rapport de l'information gagnée par ce schéma à l'information qu'à priori 
nous pouvions espérer gagner connaissant simplement la fonction de répar- 
tition de Y. D 


Max. AIT (6.7) 


Parmi tous les schémas probabilistes possibles, nous nous bornerons 
dans la suite à ceux qui sont les mieux adaptés, Autrement dit, nous 
n'examinerons ici que le cas où : 


Cp = 


1)D est le maximum D*de D(cf p.156 )quand la courbe y=w(x)est quelconque. 
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2) D est le maximum D de D (cf.p. 159) quand la courbe y = w (x) est 
une droite, 


3) D est le maximum Dhde D (cf. p. 160) quand la courbe y = w (x) 
est une parabole de degré n, 


Nous désignerons les trois indices correspondants par 
CTAUIR TE Ci 
En vertu de (5.23) on a évidemment : 
CZ Cp* Cri = Cp* (6.8) 
D'autre part, les quantités D*, D, D étant non négatives C, Cp+ , 


GS: Cp seront eux aussi non négatifs, Ceci posé, examinons ce que 
deviennent ces indices dans quelques cas particuliers . 


B) EXEMPLES : 
1° On prend la variance comme mesure de l'incertitude 
a) la courbe y = & (x) est supposée quelconque, 


Nous avons vu au chapitre V que le maximum D* de Détaitalors obtenu 
quand y = w (x) est une ligne de régression des moyennes, Maintenant nous 
examinons uniquement l'avantage que nous retirons du schéma probabiliste 
considéré dans la définition des nouvelles lignes de régression. 


Cet avantage s'exprime par : 
* 
Epal, D (6.9) 
Max. AJ 


où D* = Jy - borne inf. » ae Pr (e;) 


par conséquent Cp* est bien défini et égal à 9? toutes les fois que cette 
quantité est bien définie (cf. plus haut). 


Autrement dit, quand on prend la variance comme mesure de l'incer- 
titude, on a toujours C = Cpx (6.10) 


b) la courbe y = w _(x)_est supposée être une droite. 


Le maximum D de D est alors atteint quand y = & (x) est la droite de 
régression. Le couple aléatoire XY est maintenant considéré comme bien 
représenté par un couple aléatoire X* Y* tel que Y* est à La fois en corréla- 
tion dure et en régression linéaire par rapport à x. L'avantage que nous 
retirons de ce schéma probabiliste s'écrit : 

Di 
Mare 


et un calcul simple montre que Cn* n'est autre que le carré du coefficient 
de corrélation linéaire Cp* = r? 


Cp* CRE 


c) la courbe y = w (x) est supposée être une parabole de degré n. 


Le maximum D* de D est encore obtenu quand w (x) est la parabole de 
régression. On a : 


DA 
SR A nu (6.12) 
Max. AJ 
On aura évidemment Cr# = 0 si la parabole de régression de degré nse 


réduit à une droite parallèle à l'axe des x (l'école italienne dit alors qu'on 
a indépendance parabolique d'ordre n cf.Salvemini [3] ou Pompilj [id Me 
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On aura Cn* = 1 si et seulement si Y est presque sûrement fonction 
univalente de x:y = (x) et si de plus @(x) est une parabole de degré n au 
plus. 

2°) Onprendla valeur typique d'ordre k comme mesure de l'incertitude, 


D*, D?, D étant toujours définies comme il est dit au chapitre V, on 
posera encore : 


” ' DA 
NO" ns UNS CRE Ale (OR Res 
PEN S Cox de ot Max AI (6.13) 
et l'on aura encore C(Ü* étant défini par (6.4) 
k k) 
CHAMBRE dos CU (6.14) 
k k k (k) 

D CS (6.15) 
et l'on aura encore Cu = 0 si et seulement si on peut trouver une nouvelle 
parabole de régression de degrés n parallèle à l'axe 0x. 

De même, on aura encore Ce = 1 si et seulement s'il existe une 


parabole de degrés n : œ@(x)=ao+ ax... + an x" etun système admissible 
de fonctions de répartition Fx (y) tels que 


&) D'APOUE y = cp (x) 
Fx (y) = 
* 1 pour y —= œ(x) 


NOTE HISTORIQUE 


Le rapport de corrélation de Pearson a été défini dans Karl Pearson [3° 


CHAPITRE VII 


INCERTITUDES, INDICES DE CORRÉLATION 
ET LIGNES DE RÉGRESSION GÉNÉRALISÉES 
POUR UN COUPLE 
DE NOMBRES ALFATOIRES 


1. — GÉNÉRALISATION DE LA NOTION D’INCERTITUDE 


Nous proposons dans ce chapitre en quelque sorte de généraliser la 
notion d'incertitude d'une manière analogue à celle que l'on emploie en 
algèbre pour généraliser la notion de distance. Le fait que l'on puisse 
découvrir des propriétés intéressantes de l'espace en ne considérant que 
la notion d'écart de Fréchet entre 2 points nous parait à ce propos parti- 
culièrement remarquable, Par analogie, nous attacherons à tout couple 
de fonctions de répartition F(y), G(y) un nombre réel positif négatif ou 


nut Q [F(y), Gt) ] 
Q [F(), G(y) | sera en quelque sorte un écart algébrique entre F et 


G et nous lui imposerons évidemment d'être nul si F(y) = G(y). 
Q [r(y), a)] = 0 si F(y) = Gy) (7.1) 


Mais nous serons aussi dans la suite conduits à imposer à 


Q LF (y), G(y)] la condition (7.2) analogue à (1.2). 


Nous aurons : 


5: la [atn.r 6] tn 6) [a(s),r 6) | = Q EEE) (7.2) 


Nous supposerons donc que (7.2)est vérifiée dans un certain domaine, 
Plus précisément, nous supposerons seulement cf (3.9) que (7.2) est véri- 
fiée toutes les fois que F; (y), F2(y), G(y) sont des F,(y) c'est-à-dire sont de 


la forme DA (y | ei) (UD + Afes et) 
“ 
Nous supposerons en outre que quels que soient les FX (y) les 


Q [ at), Fy(y) | restent compris entre deux nombres donnés m et M. 


Avec ces deux seules hypothèses on pourra démontrer comme au chapi- 
tre III que quels que soient les Pi positifs rationnels ou non tels 


que D, p; = 1 on aura : 
Z 0 [ou na] = 0 [c6), X » r6)] (7.3) 
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ou d : 
ZE Pres) a [apw,rt|e)]= à [au), X F6] ei) Pre) | (7.4) 
Si nous faisons G(y)=B(y)compte tenu (7.1),(7.4)s'écrit en remarquant 
que 2 F(y|ei)Pr(ei) = B(y) 
Z Pr(ei) Q [BG), F6] e)] = 0 (7.5) 
et l'on aura évidemment dans (7.5) le signe égal si quelque soit e; 


F(y | ei) = B(y) 
sont les mailles du réseau d'ordre n, il est clair que : 


ei} | = 2 Pre) Q [86 [ a? 


2. — GÉNÉRALISATION DE LA NOTION DE GAIN D’INFORMATION 


De plus, si les e;(") 


> Pr(ei°)) Q EUR [y 


A) DEFINITION : 


Première généralisation : 


Q Laty): F(y)] étant supposé choisi comme nous l'avons dit précé- 
demment, nous appellerons gain d'information généralisé la quantité : 


AJ = borne sup. x Pr(e;j) Q [ 86), F(y | ei] (7.6) 


Il est clair qu'on aura toujours AJ = 0 STD) 
et qu'on aura nécessairement le signe égal dans (7.7) si X et Y sont indé- 
pendantes, mais que la réciproque n'est pas nécessairement vraie. 


Deuxième généralisation : 


Nous prenons simplement (7.6)comme définition du gain d'information 
mais sans imposer () de vérifier nécessairement les conditions qui ont 
servi à prouver (7.7). Nous imposons uniquement à ( d'être tel que (7.7) 
soit vérifiée pour tout couple aléatoire XY pour lequel AJ est défini et de 
plus d'être tel que AT = 0 si X et Y sont indépendantes, 


B) EXEMPLES : 
Les conditions précédentes seront en particulier vérifiées dans les 3 
cas particuliers suivants : 
1) Q L F6), G(y) | est une fonction concave du vecteur F(y) - G(y) 
autrement dit sionpose F;(y) - G(y) =2Z1 , Fly) - G(y) = z2 
Q [rG), GG) | =w (z,) on a 


ibm] 0 [4] 


2) afro), cu] = #4 [rw]-9 [ a | (7.8) 
ee est une incertitude, Dans ce cas, le fait que AJ = 0 entrainera 
l'indépendance de X et Y si nous supposons que Ÿ est une fonctionnelle 
strictement concave, mais il n'en sera pas nécessairement de même si nous 
supposons seulement que Ÿ est une fonctionnelle concave. 
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&)} wo [F(), G(y)] estune mesure de l'écart de Fréchet (1) entre les 
deux lois de probabilité F(y), G(y) etonauratoujours LF(), G(y) | Et 


le signe égal ne pouvant être obtenu que si F(y) = G(y). 


Dans ce cas, on aura AJ = 0 si et seulement si XetY sont indépendantes, 
Dans la suite, nous serons amenés à considérer comme cas particulièrement 
intéressant le cas où l'aire (prise en valeur absolue) comprise entre les 
courbes F(y) et G(y) est prise comme mesure de l'écartentre F(y) etG(y) (2) 


afro. ch] + f [re - ct 


Dans le cas où les v.a. Y, et Y, de fonctions de répartition F(y), G(y)ne 
peuvent prendre qu'un nombre fini de valeurs y; avec les probabilités 


dy (710) 


. 1 s . 
respectives P ;" Ge nous serons également amenés à considérer les 


définitions suivantes de la distance : 


0 [F6), &()] 


= Rp (7.11) 


( 2)12 
0 [r6), ah) ] = 5 |» - D (7.12) 
j 
Toutes ces définitions d'ailleurs ne s'imposent nullement, Nous 
n'attirons l'attention sur elles que parce qu'elles nous permettront tout à 
l'heure de retrouver divers indices de corrélation qui apparaissent d'un 
grand intérêt théorique. 


3. — GÉNÉRALISATION DE LA NOTION D’INDICE DE CORRELATION 


1°) L'indice de corrélation généralisé C sera toujours donné par la formule 
FE en : te : 
(ere Max AT , dans laquelle AT désigne maintenant le gain d'information 


généralisé. Cette quantité ne sera considérée comme définie que si ANJret 
Max AT existent et sont finis. 


1) Nous aurons évidemment toujours C =0 si X et Y sont indépendantes 
CES 


2) Nous voyons immédiatement que si Q LF (y), &(y) | vérifie (7.9) on 
ne pourra avoir C = 0 que si X et Y sont indépendantes, 


3) Par contre, nous ne savons pas a priori sinous aurons C = 1 quand Y 
est fonction univalente de x en un des sens stochastiques définis dans les 
p. 144 et suivantes. Il n'en sera ainsi que si le maximum de AŸ est 
obtenu précisément quand Ÿ est fonction univalente de x en ce même sens, 


(1) Rappelons qu'on appelle espace écartisé de Fréchet ou espace E tout espace où 
on peut définir la convergence ou la limite au moyen d'un écart c'est-à-dire où 
1° à tout couple de points a b de l'espace considéré correspond unnombre(a,b)=(b,a) > O0 

nombre qu'on appellera écart de a et de b, 


2° Ona (a,b) = O0 si à et b ne sont pas distincts et dans ce cas seulement 

3° Pour qu'une suite infinie de points à, a,... a,... soit convergente et ait pour limite le 
point a il faut et il suffit que l'écart (a,, a) entre a, et a tende vers 0 quand n croit 
indéfiniment. 


Cette définition est plus générale que celle de Bourbaki puisqu'elle ne suppose pas 
l'inégalité triangulaire, 
(2) Cet écart vérifiant l'inégalité triangulaire est une distance au sens de Fréchet - 


Par contre ce n'est pas une distance au sens de Bourbaki, car cet ( [F(y),G(8)] ST 
pas nécessairement fini pour tout couple de fonctions de répartition. 
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4) De même, nous ne pourrons avoir C = 1 que si Y est fonction univa- 
lente de x en un certain sens stochastique, seulement si le maximum de AJ 
ne peut être obtenu que si Ÿ est fonction univalente de x à ce sens stochas- 
tique. 


2°) Les principaux indices de corrélation (1) considérés jusqu'à présent 
n'ont, à notre connaissance, été définis que si X est une v.a,. discrète ne 
pouvant prendre que les valeurs xj avec des probabilités p;. Ce sont : 


a) Si Y est une v.a. discrète les indices simples et quadratiques de 
connexion partielle de Gini. 


Eneffet,;… soit P;; la probabilité du couple xi,y; posons : 


Pi 2 Pi; et Ps 2 Pi; (7.13) 
On retrouve l'indice simple de connexion partielle de Gini : 
SEE nm 
B,= i j 1 


Ras (7.14) 
UN ep) 


si @ [F6 a | est donné par (7.11) c'est-à-dire 


si Q For 6 | Snnnh les Lu P.; 
Pi. 
De même, on retrouve l'indice quadratique de connexion partielle de 
Gini : 
el ME 2 
2 à HAUT (Pi; - Pi. P.) 
C, = Ê (7.15) 


1 - 2: pe; 
quand ( [F6 G(s)] est défini par (7.12) c'est-à-dire 


io [sort] - 2 or 
j i- 


b) Si Y est une v.a,. quelconque on retrouve l'indice simple de 
dissemblance de Gini : 


1. B(y) [1 - B(y)| dy 
SH OMIS") ch] est défini par (7.10) 


(7.16) 


Il convient de remarquer que les indices de Jordan, Mme Geiringer, 
Lé . . . 
Fréchet ne sont pas des indices de corrélation à notre sens nouveau, 


(1) Nous conformant à la terminologie franco-anglaise, nous appelons indice de 
corrélation ce que les Italiens appellent l'indice de connessone!!, Ainsi nous continuerons 
à dire rapport de corrélation de Pearson... bien que pour l'école italienne il s'agisse là 
d'un indice de connexion.Nous ne gardons le mot connexion que pour les indices découverts 
par l'école italienne, 
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4. — RETOUR A LA NOTION D'INFORMATION ÉLASTIQUE 


Ici la généralisation des notions de gain d'information dure et élastique 
est relativement complexe etil est probable qu'en raison de cette complexité 
même cette généralisation sera relativement peuutile, Aussi nous bornerons- 
nous à considérer uniquement un cas particulièrement simple: celui où 


a[r6), G() | est un écart, c'est-à-dire que nous supposons que : 
a[re, «m]= o 


o [r6), G() | = bre: en (T2) 
siF(y) = G(y 


On sera donc amené à poser (voir ch. IV) 


E = borne sup. 0 [v (y),F(y 


et nous aurons toujours E = ©. 


ei) | Pr(e;) (7.18) 


Et nous serons amenés à considérer que le schéma est le mieux adapté 
possible si E est le plus petit possible, 


Or, la valeur de la quantité E dépend uniquement de 
Y (y) = P Lx eo" (x) | (cf 4.11) 


donc E est une fonctionnelle de w (x) 


Nous sommes donc tout naturellement conduits à appeler nouvelle ligne 
de régression relative à () toute fonction w* (x) telle que le minimum 
E* de E soit atteint. 


Il est bien clair que si nous prenons pour & (x)la droite y = 0, nous 
trouverons E = AŸ 


Nous aurons donc nécessairement : 
* 
(QE = HE ANS 


Il est d'ailleurs clair qu'on aura E* = 0 si et seulement si Y est en 
corrélation dure relativement à x. 

De même nous pourrons définir les nouvelles droites de régression 
relatives à (A, comme étant celles des droites ax + b pour lesquelles le 
minimum E% de E est atteint quand on impose à (x) d'être une droite, 
Et nous aurons évidemment : 


One. D AY 


VALEUR D'UN SCHEMA DE CORRELATION ISOGENE 


Nous avons vu p. (4.10 ) qu'avec la définition classique de l'incertitude, 
nous ne pouvions juger aisément la valeur d'un schéma de corrélation 
isogène car nous n'avons plus nécessairement &> 0. Au contraire, si Q 
est donné par (7.17), nous serons conduits à poser : 


& = borne sup. D, (®] [v (y), F(y ei) | Pr(e}) (7:29) 


rer vin = [raw {;+ #60] | 
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nous aurons toujours : 


éZ0 


Nous serons amenés à considérer le schéma comme Île mieux adapté 
possible si on prend pour À (x) et p(x) des valeurs À” (x) et p" (x) telles 
que le minimum &° de & soit atteint. 


On aura évidemment 
ve (7.20) 


Il est évidemment également possible de considérer d'autres familles 
de schémas probabilistes et de déterminer par ce procédé le mieux adapté 
les schémas de la famille considérée, 


On peut également comparer les schémas de 2 familles différentes par 
exemple, on peut comparer les 2 familles de schémas probabilistes consi- 
dérés ici. La seconde étant incluse dans la première, on aura toujours 


SE) 


LECTURES RECOMMANDEES 


Les divers indices de corrélation dont il est question ici sont définis 
dans Brambilla 1] la lecture de Gini [1] (où est défini g)est tout 
particulièrement recommandée, - Après sa lecture il n'est pas du tout 
évident que g peut se mettre sous la forme (7.16). On s'en rendra compte 
toutefois en consultant Salvemini [1] la démonstration de ces auteurs a 
été reprise en français dans Fréchet [2] et dans Féron [1] pour les 
questions de Topologie voir Fréchet [16 et Bourbaki [1] ; 


CHAPITRE VIII 


INFORMATION, REGRESSION 
ET CORRELATION 
DANS L'ESPACE EUCLIDIEN A n DIMENSIONS 


Nous nous bornerons à examiner ce que deviennent les notions 
précédentes dans le cas simple souvent rencontré dans la pratique où l'on 
ne considère plus 2 variables aléatoires, mais n variables aléatoires 
Zy, Zac. Zn de fonction de répartition F(z,, z,, ... zn). Nous obtiendrons 
une généralisation des résultats précédents en faisant jouer aux p premières 
variables un rôle particulier par rapport aux m=n-p suivantes, Autrement 
dit, les scalaires x, y considérés précédemment seront remplacés par des 
vecteurs * et ÿ où * est un vecteur à p dimensions et ÿ un vecteur à m 
dimensions, F 


Ceci posé, nous nous proposons de généraliser à l'espace les notions 
d'incertitude, de gain d'information, de régressionetde corrélation, telles 
L Ld 8 s 
qu'elles ont été définies dans les chapitres I à VI. 


1. — GÉNÉRALISATION DE LA NOTION D’INCERTITUDE 


A) DEFINITION 


Il nous faut maintenant définir ce que nous entendons par incertitude 
sur un vecteur aléatbire Y de fonction de répartition : 


AGENT, eye. va) (8.1) 


A cet effet, nous considérons une fonctionnelle ( Le (5)] à laquelle 
nous imposerons une condition analogue à (1.1). Cette condition sera : 


Fi (Y15Y2ee.Ym) + F2 (1: Y22 +. Ym) 1 
| D de 6 [FG,...yn) 
+ Ÿ [F6] | (8.2) 
Si (8.2) est vérifiée, nous dirons encore que ÿ est une fonctionnelle 


concave. Si de plus, on ne peut avoir le signe égal dans (8.2) que si 
F,(ÿ) = F2 (ÿY) nous dirons que ÿ est une fonctionnelle strictement concave, 


De plus, dans les études qui touchent à la régression, il est utile 
d'imposer à Ÿ une condition analogue à (1.2) ; on devra avoir, quel que 
soit le vecteur à (a,,...am) : 


6 [rw - 2] = # [ro] (8.3) 


5 
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B) EXEMPLES : 


DEN [r(y)] désignant. une fonctionnelle concave ordinaire, il est 
clair que la fonctionnelle : 


[rm]: k, À [F(œ na Qer Va er ne ci ] (8.4) 


i=1 


(où F(o ,w ,... © , Yi » æ ...o ) désigne la fonction de répartition 
marginale de Y; et les kji des constantes positives arbitraires) sera 
concave (1). 


2) Nous pouvons généraliser la notion d'entropie dans le cas où Ÿ est 
un vecteur aléatoire totalement discontinu.Soit pi,, ip» im là probabilité 


pour que le vecteur aléatoire Y ait pour coordonnées y\! ; 2°: pese 


Nous appellerons encore entropie de ce vecteur aléatoire la 
fonctionnelle : 


(RG) | ans Dnionoper Pipiiese.ciptile pif ati (8.5) 


Hole. im 


Ilest clair que si F,(ÿ) et F,(ÿ) sont les fonctions de répartition de 
F(Y)+F (y) 
LE 


sera aussi la fonction de répartition d'un vecteur aléatoire totalement 
discontinu et qu'on aura ÿ étant donné par (8.5) : 


Ù pe] => +\r[rm]+s[r6)]} (8.6) 


le signe égal ne pouvant être obtenu dans (8.6) que si F, (y)est identique àF, (y). 


deux vecteurs aléatoires Ÿ, et ve totalement discontinus, 


3) Supposons enfin que nous désirions définir d'une manière judicieuse 
s 


l'incertitude sur le vecteur aléatoire à 2 dimensions Y de fonction de 
répartition F(y) = Fu, v). 


Le problème étant relativement simple ,nous pourrons choisir Fe k 
de manière à lui donner une signification physique simple, Nous somme 
ainsi fort tentés de prendre pour #|[F(u,v)] le gain d'information AJ, ou 
l'un des gains d'information dure D* ou D. 


Pour pouvoir le faire, il faudrait prouver que AŸ , D“, D* sont.des 
fonctionnelles concaves. Or, il n'en est généralement pas ainsi, Bien au 
contraire. Nous allons donner un exemple où AY , D* et D* sont des 
fonctionnelles convexes, ce qui nous permettra de prendre -AI, -D*,-D* 
comme mesures de l'incertitude, 


Supposons que pour la détermination de AŸ , D* et D nous ayons pris 
la variance comme mesure de l'incertitude, autrement dit : 


D'[r(uv)] - f NV) "re (Em pee ess dF,(v)dF(u,w) (8.7) 
2 [Ftu,v) | = f (v-VJar( 00 ;v)-min, ji: Î (v-auV) 4, A 


(1) Plus généralement si 4 (À, , À, ».\ " ) est une fonction concave et croissante 
de l'ensemble des variables numériques À, , À, ... ; Àn (cf. Rado 1) et si les \; sont 
des fonctionnelles concaves alors 
®[F(y)] CRUR PAT [F(y: co .…. o] RO SO VAN [F ( 00 D ES) ose An[F(ee AC DN) |} 
est une fonctiohnelle concave, 
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Î var(x sv) 
NOE Î vdrFiitrv) 


<| 
il 


Un calcul simple montre que si D* et D“ sont donnés par (8.7)et (8.8), 
on à : 


F'(u,v)+F'{u,v) 
DR] + fre] +9 [rte] | 6.0 


fe) 2 ofriu,] +0 [ re, 9] } Go 


* * . 
X, Donc Det 9} sont des fonctionnelles convexes et par conséquent 
+ . pe . 
-D*et - DŸ sont des fonctionnelles concaves et peuvent être prises comme 
mesure de l'incertitude. 


2. — GÉNÉRALISATION DE LA NOTION DE FONCTION 
DE RÉPARTITION LIÉE 


Etant donné un vecteur aléatoire FA (2 Lust, Zn) de fonction de 
répartition F(z,, Z2, ... Zp, ... Zn), nous appellerons système admissible 
de fonctions de répartition liées à l'ensemble des p premières variables 
tout système de fonctions de répartition F,,, 2,» «+. zp (Zp#t ... Zn) tel que : 


Z; Za- Zp ( ) 
2 » eZ 
MUR ass - » Apr ose Zn) = Î Î A Fpisgisee cp FE d 
—00 — 00 —0 


LEE 218 nsrObs © L=(8214) 


et ceci quels que soient Zz,, Z2,... Zn. 
(8.11) peut d'ailleurs s'écrire dans le langage vectoriel condensé suivant : 


x 
FR = fr War (Fo) (8.12) 
(0) 
Et de même que précédemment on peut montrer qu'il existe toujours 
une infinité de systèmes admissibles de fonctions de répartition liées, 
Dans ce cas, on dit encore (cf. Cramér [1] p. 160) que les vecteurs 
aléatoires X et Y sont indépendants si : 
PR VITE (TOR 70 (8.13) 
Avec cette définition, nous pouvons généraliser le théorème p. 134 et 
énoncer que : 
Si deux vecteurs aléatoires sont indépendants, on peut trouver un 
système admissible de fonction de répartition liées [Fe (5 )}pour lequel 


Fe (y }N= Um, y) quel que. soit x et réciproquement. 


De même, par analogie avec les définitions du chapitre Il,nous dirons 

. Ed . * — . 
que le vecteur aléatoire Y est en corrélation dure relativement à X si on 
peut trouver un système admissible de fonctions de répartition liées 
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F+ (Y}) telles que, quel que soit le vecteur X à n-p dimensions, on 
puisse trouver un vecteur Y ( x ) à p dimensions tel que : 


FRMCS je (nee TE) (8.14) 


Nous pourrons également définir ce que nous appelons système admis- 
sible de fonctions de répartition relativement à la fonctionnelle ÿ comme à 
la p. 131, l'équation (2.13) deviendra alors : 


6 |: Go] - mime #frfy] «| (8.15) 


(Ti )—"0 


où Ô(T;) désigne le diamètre d'unintervalle arbitraire contenant l'extrémité 
du vecteur x 


3. — GÉNÉRALISATION DE LA NOTION DE GAIN D'INFORMATION 
A) DEFINITION : 


Le gain d'information sera : 


L2 
AJ = borne sup. o[r ARMES )| RE [FC le;)| Pr(e:;) (8.16) 
les e; étant des intervalles de l'espace R} tels que >; ei = Rp et on mantre 
comme précédemment qu'on a toujours : 


NO T 40 (8.17) 


et on montrera comme précédemment que si X et Y sont indépendantes, 
on a toujours : 


AT = 0 


La réciproque,au contraire,ne sera vraie que si Ÿ est une fonctionnelle 
strictement concave (il en sera par exemple ainsi si ÿ est donnée par (8.5).) 


Par contre, dans le cas particulier où Y est un vecteur à une dimen- 
sion alors que X est un vecteur à p dimensions le fait que AŸÏ = 0 quand 
on prend la variance comme mesure de l'incertitude signifie simplement 
que la moyenne liée est indépendante de x (c'est-à-dire que l'on peut 
trouver un système admissible de fonctions de répartition Fe ( y )tel que 


[rer (y) = Cte 


4. — SUR ÜN SCHÉMA PROBABILISTE 


A) LE SCHEMA PROBABILISTE 


omme écé i 1 
G précédemment, nous pourrons remplacer en première approxi- 


mation les vecteurs aléatoires X , Y par des vecteurs X*, Y*qui sont 
en corrélation dure (cf. formule 8.14) 


—_ 


_ 
Le couple de vecteurs aléatoires X* Y*aura pour fonction de répar- 


tition F* ( X, y’) telle que : 
* _ 
LL ECONON 2 DT ere ) (8.17) 
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| Y< RES HAS CtEn] = P(XCE)v(b) (8.18) 
Ces conditions entrainent d'ailleurs : 


vH=rPT<S + (8.19) 


B) INTERPRETATION GEOMETRIQUE DANS UN CAS PARTICULIEREMENT 
SIMPLE. 


Considérons le cas particulièrement simple où n=3 et où il existe une 
densité de probabilité f(z:,z,,z,). Nous pouvons considérer la loi de probabi- 
lité de l'ensemble des variables aléatoires z,, z,, z, comme bien déterminée 
par la donnée d'une répartition de masse continue dans l'espace, la densité 
aurpointizi; Zz:9 zstétant {(z,"z5 zs): 


Toutefois, en première approximation, nous pourrons considérer que 
l'ensemble des v.a. Z1, Z,, Z; est suffisamment bien décrit en associant à 
chaque point z,, z,, z,;, une densité de probabilité f‘(z,, z,.Z3) qui soit d'une 
forme analytique simple. 


Mais dans ce cas particulier, deux schémas simples nettement différents 
se présentent suivant que l'onconsidère y comme un vecteur de R; ou de R:. 


1°/ Y_est un vecteur de R1 - 

Alors la distribution de densités f"{(z,, z,, z3) peut être considérée 
comme produite par une distribution de masse W (z,) sur un fil élémentaire 
se déplaçant parallèlement à l'axe des z de manière à couper la surface 


Z3 = © (%) = © (z,, 2) (8.20) 
en un point fixe (les fils élémentaires étant bien entendu supposés répartis 
avec la densité A(rrirr) = 1 (21. 22. 25) dz, 
2°/ Y_est un vecteur de Ro - 

Alors la distribution des densités f*(z,, z,,z3) peut être considérée 
comme produite par une distribution de masse W (z,, z:) sur un plan 


élémentaire perpendiculaire à Oz, et animée d'un mouvement de translation 
le long de la courbe que nous pouvons écrire en langage vectoriel 


Ÿ -0 (ui) (8.21) 
ou en langage algébrique ordinaire : 
Zi = G@4 (z1) (8.22) 
Z3 = &@p (z) 
(les plans élémentaires étant bien entendu supposés répartis avec la densité 
A (z:) = P"(zi, Zo, 23) dzo des). 


Revenons maintenant au cas général et aux notations du paragraphe 
précédent. 


C) GAIN D'INFORMATION DURE ET GAIN D'INFORMATION ELASTIQUE 


Par analogie avec les définitions du chapitre IV, nous définirons Île 
gain d'information dure par 


D - pfres ,n]-59 [vom] (8.23) 
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_et le gain d'information élastique par : - 


5-4 [v On] - vomeint. D 4 [r (5) 


s 


et tous les théorèmes du ch. IV relatifs à ces quantités se généralisent 
aisément. 


ei | ei (8.24) 


5. — GÉNÉRALISATION DE LA NOTION DE RÉGRESSION 
A) GENERALISATION DE LA NOTION DE LIGNE DE REGRESSION : 


Nous serons amenés à associer à tout vecteur x del'espace euclidien 
à p dimensions un vecteur ® (©) de l'espace euclidien à m = n-p dimensions 
etappellerons variété de régressionde Y en x (1)une quelconque variété : 
To=e os (KR) (8.25) 
pour laquelle le maximum D* de D est atteint, c'est-à-dire pour laquelle 
ÿ [y y) | est minimum quand : 
vi =rP[T< om :7] 


en langage ordinaire (8.25) s'écrit évidemment : 


Zp+1 = &, (23 Zo3ceo Zp) 
Zp+2 = @ 9 (z,, Zosoeos 2) (8.26) 
Zn _ Om (2, Z93o0e zp) 


Dans la suite, nous supposerons que Ÿ a été choisie de manière à 
vérifier l'équation : 


o frœ-n] -9fFrm] (8.27) 


qui généralise (1,2), Il en résulte que si la variété définie par (8.26) est 
une ‘variété de régression!" quels que soient a4,.. am, la variété : 


Zp+1 = @y (23,522... Zp) + à4 
(8.28) 
Zn = Om As + Cor Zp) + am 


sera aussi une ‘yariété de régression!!, 
! . . er 
Il est d'ailleurs clair que si Y est en corrélation dure par rapport à 


x cf. (8.14), quelle que soit la fonctionnelle ÿ [| F(ÿ) ] vérifiant (8.27) 
choisie pour mesurer l'incertitude, non seulement la variété : 


1) 0 SAC En) (8.29) 


(1) On peut aussi parler de régression d'un groupe de v.a, Zi15Z2,3...Zp par rapport 
au groupe complémentaire Zp#1 Zp+2° _ 2 n° 
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sera une variété de régression, mais encore les variétés : 


Mess pot SAME) 


B) EXEMPLES : 


s 


1) Application à la loi de Laplace-Gauss, : 


Plaçons-nous dans l'espace à 3 dimensions et supposons que l'ensemble 
des v.a. Z4, Zo, Za obéisse à une loi de Laplace-Gauss et soit : 


jl -Q(z:,29,Z3) 
f(Z1,2Z0,23) = ne (8.30) 


(où Q(z,, z:, z:) est une certaine forme quadratique définie positive), leur 
densité de probabilité et considérons l'ellipsoide 


Q (21, 2» 23) = 1 


a) Si y est un vecteur de R; 


Alors quelle que soit l'incertitude ÿ vérifiant (8.3) tout plan conjugué 
de la direction 0 z;, est une l''variété de régression!'. 


) Si y est un vecteur de Ro 


Alors quelle que soit l'incertitude ÿ vérifiant (8.3) toute droite parallèle 
à la direction conjuguée du plan 0z,z3 est une l'variété de régression!'!, 


œ) Si Y est un vecteur de R: 


Alors on obtiendra la ''variété de régression des moyennes'! en prenant 
toujours la variance comme mesure de l'incertitude, Il est aisé de voir que 
toute hypersurface parallèle à l'hypersurface : 


+ © 
FPT (24: ,22...2p) $ ra Gprt À F7, 26 (5 p+1) 


(8.31) 


sera une variété de régression des moyennes. 


B) Si Y° est un vecteur de Rm 


Alors diverses définitions de l'la variété de régression des moyennes"! 
sont possibles, Il est en effet possible alors de donner diverses définitions 


de l'incertitude # [F(y, ,... yn) 


La plus simple consiste à poser 
2 
ÿ EC RE = > min Î (HA) (LE Dr es. D) 
L'afbr: (8.32) 
c'est à dire à prendre pour ÿ la somme des variances des variables marginales, 


Dans ces conditions, considérons dans un espace à p+1l dimensions 
lensembléerdeshv.207/275,...,4Zpiel Zp+isl'hypersurface de régression de 
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Zp+i EN Z4, Z2... Zp Sera donnée par (8.31) on aura : 
Zp+i 7 &i (21, Z9s oo zp) (8.33) 
Dans ces conditions, il est aisé de voir que si nous prenons (8.32) 


pour mesure de l'incertitude, quels que soient b,, b, ... bm, les variétés : , 


Zp+1 b: 4 © (Zi zone Zp) 


Zp+m = bm+@m (23,22,...2p) (8.34) 
sont des variétés de régression. 


B) GENERALISATION DE LA NOTION DE DROITE DE REGRESSION 
Dans le schéma probabiliste considéré précédemment, nous pouvons 


imposer à & ( x) d'être d'une forme analytique simple.Par exemple, nous 
pouvons imposer aux composantes du vecteur w d'être des fonctions 
. PEN = 
linéaires des composantes du vecteur x. 


En langage ordinaire, nous aurons donc : 


P 
ou (z1,... Zp) = D, a; Zj + b: 
(8.35) 


ami Z; + bm 


Me 3 


CN CRE zp) = 


=1 
et nous essaierons de déterminer les, valeurs a; et bi pour lesquelles le 
maximum D} de D est atteint quand & est donné par (8. 35). 


Il est aisé de voir, compte tenu de (8.3) que le maximum de D sera 
encore obtenu pour les af; et b;j quels que soient les bj. Aussi quels que 
soient les b;, nous appellerons variété linéaire de régression de Ÿ en x la 
variété : 


Zp#i = dy 21 +... + af zp+ bi 
: (8.36) 


1 


Zn dt 24 + + am Zp+ bm 


Il est aisé de voir que dans le cas où l'ensemble des v.a, Z1... Zn 
obéit à une lo1 de Laplace-Gauss à n dimensions, les variétés linéaires 
de régression coïncident avec les variétés de régression et ceci quel que 
soit ÿ. 


De plus, quelle que soit la loi de probabilité de X Y quand Y est un 
vecteur de R4 et quand on prend la variance comme mesure de l'incertitude 
on retrouve comme variété de régression l'hyperplan ajusté par la méthode 
des moindres carrés, 


6. — GÉNÉRALISATION DE LA NOTION DE CORRELATION 


A) INDICES DE CORRELATION GENERALISES : 


Nous appellerons toujours indice de corrélation cf.(6.1)la quantité : 


AIT 
7 maxAY (8.37) 
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où AJ est défini par (8.16). 


Dans le cas où @ est définie par (8.32) on obtient une généralisation du 
carré du rapport de corrélation de Pearson. 


B) INDICES DE CORRELATION DURE GENERALISES : 
1) Définition : 


Comme précédemment, nous considèrerons encore les indices de 
corrélation dure : 


D* 

ce Max. AT (8220) 
D* 

Cf Max. AT (hsse) 


qui nous indiquent la valeur des 2 schémas probabilistes les plus intéressants 


dans la pratique, 
— 
Nous nous bornerons ici à donner quelques exemples dans les cas où Y 


est un vecteur aléatoire de R ou de Ra. 


2) Exemples : 


— 
&œ) Y _ est un vecteur aléatoire de R: 
Dans ces conditions, si on prend la variance pour mesure de 


l'incertitude, on a encore C = Cp et on retrouve le rapport de corrélation 
de Pearson. 


Par contre, on aura 


che An RaBeN plus Dass D? 'actiniPieun (8.39) 


en désignant comme d'habitude par 2Zh+1.12 T2 lave a 
Zprte 1 2up= Zpri= Zp+i - Abus Zi =... -aP4,p Zp (8.40) 
et on retrouve aisément le carré du coefficient de corrélation multiple : 
Crt = R° (8.41) 


p) Y _est un vecteur aléatoire de Ro 


Un calcul simple montre alors que si on prend pour mesure de 
l'incertitude la quantité - 9; où 4 est défini par (8.8) on retrouve pour 
Cr“ le carré du coefficient de corrélation partielle. 


LECTURES RECOMMANDEES 


La définition des indices classiques de corrélation se trouve dans 
Kendall [1] et Brambilla [1] 


CHAPITRE IX 


ÉTUDE APPROFONDIE 
DE CERTAINES CLASSES D'INDICES. 
DE CORREÉLATION 


Dans les chapitres precédents, nous avons généralisé les notions 
d'écarts typiques, de gain d'information et de régression et donné une 
définition nouvelle de la notion de corrélation, Nous ne nous sommes 
jusqu'à présent occupés que de caractéristiques fonctionnelles théoriques 
et avons délibérément laissé de côté les questions relatives à la conver- 
gence stochastique de suites de caractéristiques fonctionnelles empiriques, 
Ce problème n'est pas difficile et le lecteur verra sans peine que le 
statisticien peut en général, à l'aide de données expérimentales, se faire 
une bonne idée de la valeur de l'indice de corrélation théorique, Nous 
verrons toutefois qu'alors que la valeur d'un indice de corrélation déduit 
de l'expérience a une signification simple dans notre théorie, il ne semble 
pas en être de même des indices de corrélation obtenus à l'aide des 
définitions classiques. 


Avant de pousser la théorie plus avant, remarquons qu'il y a lieu de 
distinguer entre plusieurs types d'indices de corrélation empiriques, 


La valeur de certains indices de corrélation C que nous appellerons 
indices du type L ou indices qualitatifs, ne dépend que de la probabilité 
qu'ont X et Y d'appartenir à un nombre fini d'ensembles K,, &,,..., &cet 
D15 A2... ng. C ne dépendra alors que des probabilités Pi; d'observer 
lesicouples K;, n; 


CE Wr (p;;.) (9.1) 


D'autres indices que nous appellerons indices du type IIT ou indices 
quantitatifs sont au contraire définis quand X et Y sont des nombres sus- 
ceptibles de prendre toutes les valeurs x, y entre -œ et +00 .On a alors : 


CREY [rtx, 2] (9.2) 


Enfin, d'autres indices que nous appellerons indices du type IL sont 
définis si X appartient à un nombre fini d'ensembles alors que Yest 
susceptible de prendre toutes les valeurs entre - © et + , 


Nous nous bornerons ici à l'étude des indices des types I et Il qui sont 
les plus simples, 


186 R. FERON - INFORMATION, REGRESSION, CORRELATION 


1. — ÉTUDE PARTICULIÈRE DES INDICES DU. TYPE I! 


Nous nous limiterons ici à l'étude de ceux de ces indices C qui sont 
tels que : 


1°/ C = O0 siet seulement si X et Y sont indépendantes 
2°/ C = 1 si et seulement si pour i donné tous les Pij sauf un sont 


égaux à zéro. 
Nous avons déjà précédemment rencontré 2 tels indices ; ce sont : 


- l'indice de connexion de Gini : 


> an) sr | Pi - Pi-Pj | 


Bx = i (9.3) 
X 2 
2 Pas) 
et l'indice quadratique de connexion partielle de Gini : 
1 2 
2 21 (Pi -M-Pj) 
cé goss and nirehh os ss) (9.4) 
23 P.; (1-p.;) 


j 
A) INDICES THEORIQUES ET INDICES EMPIRIQUES : 
Dans la pratique, on ne peut connaître exactement la valeur de 
l'indice théorique C = Y (pi;) car on ne connait pas les valeurs des Pij + 


On connait seulement les fréquences £ (fréquences d'observation du 
couple xj y; au cours de n épreuves indépendantes), 


Aussi calculerons-nous l'indice empirique : 
n n 
COS EE (9.5) 
Ceci posé, nous démontrerons que : 


a — —————  ————_—_—_—_—_—_—_—]_———_—_—_—_—_—_— 1 ————_—_—_—_—_—_]_——————"—""——_—_——— 1 — 1 == 


certainement vers leur valeur théorique, 

En effet, d'après le théorème de Borel-Cantelli, les £ 0 convergent 
presque certainement vers les pij et pl et c2( étant des fonctions continues 
Y (et) des at ces indices convergent presque certainement vers les Y (pij) 


correspondants (1), 


B) EXTENSION AU CAS OÙ X ET Y SONT DES VARIABLES ALEATOIRES 
CONTINUES : 


1) Définition des indices de corrélation théorique et empiriques, 


Considérons maintenant un couple aléatoire X Y dont la fonction de 
répartition F(x,y) est absolument continue, 


(1) On peut même affirmer que si C # 0 ou 1 alors la distribution de CÜkend quand n 
tend vers l'infini vers une distribution normale (Cf Von Mises (1) ou Hoeffding (1)) - 
Si C = 1 on a évidemment toujours C (n)= 1, Pour le cas où C = 0 voir Von Mises (2) ou (3) 
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Pourassocierunindice dutype 1 au couple X Y, il nous faudra effectuer 
une certaine division en classes, Nous considèrerons c - 1 valeurs parti- 
culières de x: x, X2,... Xe-1 et € - 1 valeurs de y: YareoeYjre.e Yeset 
désignerons par Pi; la quantité : 


Pig © Ffrisy) Fimo) - Fr yis)ot Fxi-1,y; 1) (9.6) 
La formule (9.6) permettra également de définir : Ptj> Pit» Pcj» Piesi 
nous posons symboliquement : 


Xo = Yo = -o Xe = Ye = +o 


L'indice théorique défini sur les p;; donnée par CA 6) dépendfa évidem- 
ment de la manière dont ont été choisis Las vecteurs x (x,,...xi,..xc4) et 
Y se. Y; Ve )S ; aussi l'appellerons-nous C>+ Ve MOIS CIS y est une 


_ continue des p;;, il est clair d'après le lemme précédent que nous 


: : : {n) ; 2 
pourrons obtenir une approximation C> ÿde C+ ÿ qui tendpresque certaine- 
ment vers C$ÿ y quand n—o |. 


Le seul problème théorique qui subsiste est donc de savoir quels 
renseignements sur F(x, y) nous apporte la connaissance de C% ve 


Nous nous bornerons d'abord à examiner ce que deviennent les condi- 
tions de Fréchet, 

2) Propriétés fondamentales de Cx ÿ 

Nous avons les théorèmes suivants : 
Théorème I - 

Si X et Y sont indépendantes, ona C> ra Pi 0 

En effet, si X et Y sont indépendantes, on a : 

PACS OMR 9) LE AC LENS ) (9.7) 


relation qui entraine : 


Le (xj, oo ) - F(x;-,, | Le (Co, YJ)= FE (w"; y) | 
= Fxi,y;)-F(xi-1y;)-F (ri, y; )+F (is, y;2) 
(9.8) 


et la relation (9.8) peut s'écrire : p;, be: MP} (9.9) 
(9:9) entraine Cr = 0. 


Théorème 2. 
Si CY$ ÿ = 0, ona pour xi-; x xi et yj1 y y; 
| FGx,y) - Fe) Fo ,y) | Fo , y JF(xi, 0 )-F(œ ,yj, Pis , © ) 
En effet, on a alors : E(cyi) al Pre œy) Flora) 
F(xis:y;4)= (Ki, co JE Co y) 


» 


(9.10) 


et en tenant compte de : 
Fe, pui E(x,y) © Flxis,yi) 
Fi, © ) SE F(x, © ) << F(xi,© ) 
Foi) = Po ee Fo, , wj) 
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F (xi,yj1)-F(x;,0 )F(o ,y;) Z F(x,y)-F(x,00 ) F(o ,y) = 


F(xi,y;)-F(xi4, © )F(o ,y;4) 


ou en tenant compte de (9.10) 
F(xi-1,00 )F(oo ,yj1)-F(xi,o )F(o ,y;) ZF(x:y)-F(x,00 )F(o ,y) 


<< F(xi,00 )F(oo ,y;)-F(xi-1,00 )F(oo ,yj4) 
Remarque : 


On peut choisir x4y, assez petits et xc_yg_, assez grands pour que 
Fxisoo )==ne (©. Liyn)-=nenl -Efkef0s }ecin 
1-F(ye, © )— 
où n est arbitraire ; alors (quand € et c tendent vers l'infini) 
on peut trouver un nombre € tel que : 


F(xi)- F(xis)<e F(y;)- F(y1)<e 
pour tout i et j entraine : 
FF - FU œ ) Fo, y)| <n (9.11) 


En effet, on a d'après le théorème 2 : 


F6 y)-F 66 0 Fo 7) | [FOaso)+e] [r(œixs)+e] 
Age Ex) -F(xis,00 )F(0 , y) 


quand xx <xX6-; Ya -Y <Ye-1 
et | F(x,y) - F(x, o )F(o ,y) | << n dans le cas contraire, 
Théorème 3 
Si Y est une fonction univalente de x C> ÿ n'estplus en général égal à 1. 


En effet, supposons que la ligne de régression de Y en x,y = (x) coupe 
la droite y = y; au point x* tel que, par exemple : xx * x; 
si Pr(xi1<X<= x") # 0 et Pr(x == X< xi) # 0 
alors il y aura pour i donné au moins deux Pi; différents de zéro et 
sera différent de 1. 


Théorème 4. 
Si Ê? ÿ = "1 et gi la variable aléatoire Y reste comprise entre les 


valeurs y, et y, alors pour tout x on peuttrouver deux valeurs de y : y£ et y} 
telles que : 

yh-y'x< Max (y;- ÿj1) et un système admissible de fonctions de réparti- 
tion liées F,(y) tel que F, (y\) - F, (y!) = 1 


— — 
CERRV 


En effet, si C = 1 à toute valeur de i correspond une valeur de j telle 
que pij- pi. = 0 
Donc à tout xicorrespond un y; tel que : 


FGcey)-F (iv) (iv) (ci yi4)- L'F(&i,00 )-F(xi4,00 )] =0 (9.12) 


or: F(x,y) = [ ne (y) TEE, oo) (9.13) 


œ 


et (9.12) s'écrit en tenant compte de (9, 15) 


j bare) | FR Ger(e | dF(E,®)-=0 


i-1 Ki Xi-1 
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j Le, (Wi)- Fy Ga Jarte.o pot (9. 14) 


i4 


Or,ona:0 Fy (yi-1) << Fy (y;) 1 la quantité entre parenthèses 
dans l'équation (9.14) ne peut donc être que négative ou nulle. Elle doit donc 
s'annuler sauf peut-être sur un ensemble E pour lequel : 


dF (ESo)= 0 


3) Retour à la notion de fonction univalente 


La démonstration précédente nous laisse entrevoir l'impossibilité 
de vérifier statistiquement que Y est fonction univalente de x, Il est clair 
en effet que quel que soit le nombre de points expérimentaux, nous pourrons 
toujours par ces points, faire passer une courbe y = p (x) telle que y soit 
fonction univalente de x, 


En conséquence, si après avoir fait n expériences indépendantes pour 
déterminer la fonction de répartition du couple aléatoire X, Y, il observe 
un nuage de points, le statisticien se refusera à considérer comme plausible 
l'hypothèse que Y est fonction univalente de x au sens de l'analyse et ceci 
bien que (sauf pour des cas tout à fait exceptionnels) à chaque valeur x; de X. 
observé correspond une seule valeur de y. S'il agit ainsi, c'est qu'il 
postule que si Y est fonction univalente de x : 


y = ® (x) 
a) @ (x) doit être fonction continue de x 


b) @(x) doit en outre vérifier certaines conditions de régularité que 
nous allons préciser tout à l'heure, 


1° De la liaison bilatérale : 


Le plus souvent d'ailleurs, le statisticien suppose qu'il y a liaison 
bilatérale continue entre X et Y (à toute valeur de x correspond une seule 
valeur de Y et réciproquement à toute valeur y correspond une seule valeur 


de X). 
S'il en est ainsi, nous pourrons énoncer le théorème suivant : 


Théorème : 


| S'il existe une liaison bilatérale continue entre le couple de v,a, X,Y, 
de fonction de répartition F(x,y),quel que soit l'ensemble des valeurs de X : 
XX Ko ee << Xc-1 
telles que les probabilités marginales p;. = F(xi, © )-#F (x;i-1, o ) restent 

toutes inférieures à € 

et quel que soit l'ensemble de valeurs de Y: y; ÿY2= + + Ye: 
telles que les p.; = F(œ , y; )- Fo ; yj1) restent compris 
entre Àe et e (0— À Æ 1), le nombre des 

Pi = Fxi,y;i)-F(xit,y;)-F (ri, yi4)+F (is, y;-) non nuls dans chaque colonne 
sèra au plus égal à À + 2 et ceci quel que soit € 


Démonstration 


Soit Fx(y) la fonction de répartition de YŸ liée à x. Si Yest fonction 
univalente de x, nous avons : 


Fx (y) si Y << Yo (x) 


Ü 
O 


=. si Y = Yo (x) 
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et la liaison sera continue si y,(x) = æ(x) est une fonction continue de x, 


Posons : W (x, x+Ax, y) = F(x+A'x, y)- F(x,-y) (9.15) 


x+AX 
Î 1e (hd (EE ,000) (9.16) 


a) Si (x) est une fonction croissante de x, on 3 : 


si y (x) Fy (y) = 0 pOur X— Ext DE 

donc Y (x, x + A x, y) = 0 

si y (x + Am}s Fy (y) = 1 pour x=CE— x+A x 

donc Y (x, x + A x, y) = E (RP ANTON PP Ter Go) 
enfin si (x) = y (x + AxhF+ (y) = 0 pour V=x + 4x 


x+Ax 
F(x+Ax,y) = Î Fy (Y)4F (€, ) 


00 < 


l Fy (y) dr (%"œ") 


00 


E ( 00 , y ) 
F(x, y) = Fu (x » QOts) ; 
donc, d'après (9.15) Y (x, x+Ax,y) = F( oo ,y)- F(x,o ) 


donc puisque F (y) est une fonction croissante, en vertu de (9.16) 
Y(x, x + À x, y) ne pourra varier que pour les valeurs de y telles que : 


FR, Œn) EN O0 Ve LE (EPA ECS 


b) si (x) est une fonction décroissante de x. 


Si ye ip (ct) F% (yhoRE= 2007 pour EE EP ANSE 
VX: 2x rA%x;Y)=" 0 

Si Yi = 1p{x) Fy (hausses igponr Es A 
VGRTEE LE) = SF FA oo ea) 

Si p(x+ Any (x) 


F (x+Ax,y) = F(o ,y)- je Fy G)ar (Kw) 


E EQo syYe |: F(x+ A x, )| 
F (x; y) = 0 


etid'apres. (9,15) Y (K, SF AK y) = Et op) [ l1- F(x+ À x,o )] 
donc WY (x,x+ À x,y) ne pourra croitre que pour un ensemble de valeurs y 
telles que : 


le Frr dx, 0) OR T0 vel re cou 


Bref, dès que nous avons entre X et Y une liaison bilatérale continue, il 
existera deux nombres y' et y!'! tels que : 


Y (x, xt A x,y) ne puisse varier que pour V'Æ= y = y! 
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et que : Fo , y") -F(o ,y') = F(x+A x, o )-F(x,  ) (9.17) 
si donc on pose = x: EH At< = x, 


et #siy est le plus grand des y inférieurs à y!', on aura nécessairement 


Yk1>>Y' 
et Flo ;, mute = Flo. , y") 
r2i8 Fo ,y;) - F(o ,yÿ;)> À € par hypothèse 
donc si m est le plus petit entier supérieur à . 


F( , Thstem) Sc F( ; y") 
ainsi au plus & + 2 des Pij seront non nuls, 


Nous prendrons lz propriété précédente comme condition de régularité à 
imposer aux liaisons unilatérales, 


2° De la liaison unilatérale, 
Définition : 


Fx, © ) étant supposée absolument continue, nous dirons que nous avons 
une lisison unilatérale du type @ si pour tout ee, et pour tout ensemble 


de valeurs de X: x, %x2,,, Xc-1 

telles que ps. = Fxi,o )- Fxis,o )<e 

et pour tout ensemble de valeurs de Y : Va Ta. mes LA 
telles que NE en Di) 2e avec RS | 


Le nombre de pi; non nuls pour i donné soit au plus égal à une constante 
donnée h et ceci quel que soit €o 


CAS OU £ ET Cc TENDENT VERS L'INFINI : 


Revenons au théorème 3, et plaçons-nous pour fixer les idées dans le 
cas où le couple X, Y admet une densité de probabilité, 


- : : (n) 
Nous savons que si Y est fonction univalente de x, C++ n'est plus 
en général égal 2 1,.Nous nous proposons maintenant d'examiner. 


2) ce que deviennent les indices classiques quand { et c tendent tous 
deux vers l'infini de telle sorte que pe et Àe— P.,< € 

b) ce que signifie le fait que les indices classiques sont voisins de 1 
quand Ÿ et c tendent tous deux vers l'infini. 


2/ Examinons d'abord un cas particulier : celui où toute la masse 
est concentrée sur la droite y =k,.x et où les v.a. X et Y ont une densité 
de probabilité constante sur des segments de longueurs a et k.a,. 

(= 2 si Re DOUX 12 
SE si D A 


2 
partageons le segment 0, a en c segments égaux à a/c et le segment 
0,k2 en k.c segments égaux a/c et calculons les valeurs de C, et Cf. 


Un calcul simple montre que l'on a alors : 
a - 

Percer 

de 7 


et par conséquent f, tendra bien vers 1 quand c — 
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Il n'en sera pas de même de cè en effet, on a : 


1 Il 1 ‘ 
2 
CCR die Co) ik cr Rec) 
c? L kc  kc? ES (9.19) 


et C} tendra vers _ quand c—» 

Cet exemple prouve qu'il est toujours dangereux de considérer sans 
étude préalable les indices de corrélation (même s'ils vérifient les condi- 
tions de Fréchet) comme un outil pour déterminer s'il y a une relation 
fonctionnelle entre X et Y. 


Aussi ne nous semble-t-il pas que, pour le moment du moins, on 
puisse donner au mot indice de corrélation unautre sens précis que celui 
que nous avons donné au chapitre VI. 


Pas plus que l'indice C£,l'indice de Jordan (1) qui vaut : 
PË t 
vies ee Doi (9.20) 
PMP, 
(et par conséquent n'est pas un indice de corrélation à notre sens) ne 


semble pouvoir servir à isoler les cas où il y à une liaison fonctionnelle 
entre X et Y. Eneffet, on a dans le cas précédent 


dans 
5° re (9.21) 
ko US) 
et par conséquent J? tendra vers + quand c tend vers l'infini. 


Il est vrai que Mme Geiringer [1] ayant remarqué pour J? un inconvé- 
nient de la nature que nous venons de signaler, propose de le remplacer par 
l'indice : 


anmialnen fudéege sa 
LE Gas al Jar 


Cet indice n'est pas non plus un indice de corrélation à notre sens, 
Il tend évidemment vers l dans l'exemple sus-mentionné, Nous verrons 
toutefois qu'il ne semble pas non plus nous permettre de juger s'il y a une 
relation fonctionnelle entre X et Y, 


Montrons que les résultats auxquels nous sommes parvenus sont géné. 
raux, Autrement dit, montrons que si nous avons une liaison unilatérale du 


type À et si € est de l'ordre de grandeur de + , alors que J? reste, en 
général, inférieur à 1, g?2 et fi, tendent vers 1, 


a) J? reste en général inférieur à 1. 


En effet, si pour tous les Pij On 4 Pi <L'UP;,, on a en posant pour 
simplifier : 


(9.23) 


(1) Pour les propriétés de cet indice, voir Fréchet (2) 


INDICES DE CORRELATION 193 


d'où on tire : 


Pi; 
Su > 2 
TU; P:) 
S< y l 
donc : F 
= SUR 


et le second membre tend vers quand © —= ® 


b)g? tend vers 1. 


En effet,comme dans chaque colonne on a au plus unnombre fini fixe k 
de Pi; Z O0 le plus grand des pij de chaque colonne sera au moins égal 


à Fe . De plus, comme p; Ce au moins = des p; seront supérieurs à L 
mais PT € donc pour au moins valeurs de i, on aura : 
à à 
1 1 ck 
4 Pied: = ie À € 
ARRET CHI : 1 
ESS ErthRER Si donc on a pris € de l'ordre de grandeur de PA put 
€ S-1 
; T- 
et : g FA S (9.24) 


tendra vers 1. 
c)_B tendra vers 1. 


En effet, si dans chaque colonne au plus k des p;j; sont non nuls, on 
pourra considérer le numérateur N de l'indice de connexion partielle de 
Gini comme la somme de deux nombres. 


NME ENG ONE 


où N'a Da | Dr Pieipei | la somme Se étant étendue aux seules 
valeurs de i et j pour lesquelles Pi; fOetN''- D M | Pij = Pi. P | la 


somme D '' étant étendue aux seules valeurs de i et de j pour lesquelles 


Pij = 0; dès lors on aura 2,0. pra DL Pij >= Nb D»! Pi 2 'BP; 


Or: k s 

25 Dit ed ol in EE 
tandis que D bre P;, ECk e? donc tend vers zéro 
et N' tend vers 1, 


On a de même : 
N'' = D 11 P;. ‘ù 


braNtUE= TT peer) 
donc Nr 
le dénominateur D tend lui aussi vers 2, en effet, on a 
L UE PE 
mais 25 | 
J 
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donc (pre ie le 
le —_— 
(mi 
Dès lors + p; — Ve ténd vers 0er DE n 
donc Rae (9.25) 
Réciproquement 


On peut se demander ce que signifie le fait d'observer que C= 1 -n 

Nous examinerons successivement ce qui se passe pour l'indice de 
Jordan, l'indice de Mme Geiringer et l'indice simple de connexion partielle 
de Gini. 

a) L'indice de Jordan : 

La démonstration précédente prouve qu'alors le plus grand des Pi; 
devra être au moins égal à (1- n ) p: 

Mais ilest aisé de voir qu'au moins Q (1-n ) des rapports Àij = 
doivent être au moins égaux à 1-7 ii 


En effet on a : 


S'Eat(ts 1h El donc S> € (1-n ) 
et de l'autre : 
Pij 
SR Re 7 
i ÿ P.J 
Pi; 
or vai = 2 \ij FES EE donc au moins{(l-r) 


des sommes {.; devront être supérieures à 1-n et ceci n'est possible que 
si un au moins des Xi de chacune d'elles est supérieur à 1-7 


Il est à remarquer que pour n=<3 on ne peut avoir deux Xi; "1-7 
dans la même colonne, donc : 


Théorème : 
Su 4 an (ni existe un nombre j_ tel 
que p;ij==(1-n )p;. pour au moins ({(1-n ) valeurs de i 


b) L'indice de Madame Geiringer : 


La démonstration précédente a montré qu'il suffisait que S tende vers 
l'infini pour que l'indice de Mme Geiringer tende vers 1, Pour qu'il en soit 
ainsi,il suffira évidemment que quand le nombre des lignes et des colonnes 
augmente indéfiniment , pour une infinité de valeurs de Pij ,; les rapports 


Pij et Pij restent supérieurs à un nombre fixee. 

Pi. P.; 

Il en sera ainsi notamment si une masse finie est tout entière concentrée 
sur une ligne, le reste de la masse étant réparti d'une manière quelconque, 


c) L'indice de connexion partielle de Gini : 


SA BP—= 1-1 pour À € Pie 


alors : 


5$ pr Le? = + 
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et le numérateur devra être supérieur à : 


2 (1-n) (-+) = 2(1-n') où n' est petit, 


Soit &ijle plus grand des 2 nombres Pij OU Pi, P.; et bij le plus petit, 
On aura : cs 


D se Zi 2 2 hi 


1 


OT l: 2 2 bin 1 > 2 Pi. ps; 


donc : »+ 


& 

<È 
M 
id 
= 
LE 

il 
D 


d'où 25 2e Hi (| 
! J 
On a donc à définir 2 ensembles complémentaires E et E' tels que 


2 mPinS IE Di PAP, 


E' 


avec : Ej + Eos =! 


Ainsi le fait que ff —-1 quand € —0 ne signifie pas que Y est fonction 
univalente de x. Il en sera par exemple encore ainsi si toute la masse est 
concentrée sur un nombre fini de lignes, 


2. — ÉTUDE PARTICULIÈRE DES INDICES DU TYPE Il 


A) INDICES THEORIQUES ET INDICES EMPIRIQUES : 


Nous avons vu que,pour les indices du type Il, X n'est susceptible 
d'appartenir qu'à un nombre fini c d'ensembles &,,%,,...%, avec les 
probabilités p,, P,,... pe: alors que Y est susceptible de prendre toutes 


les valeurs de -@ à +@ . Soit Fx; (y) la fonction de répartition de la 
variable liée Yy;. C sera alors fonction uniquement des p; et Fy; GE; 


nous noterons OS EN [ Dis Fy. (y) ] 


s 


Nous nous bornerons ici à l'étude des indices du type II qui vérifient 
les conditions suivantes : 


1°/ C = O0 siet seulement si : 
Er ose 2 ul 0 cire ct a PE 2 
2°/ C = 1 siet seulement s'il correspond à tout EF; 


un nombre y, ( E;i ) tel que 


M OMREMOME Dale Ayeie po Vis) (9.26) 


1 si Nemo Uri.) 


Les indices du type II seront dits continus si à tout nombre n on peut 
faire correspondre un nombre € tel que : 


LP: - pl| = € 
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et borne sup. | ne (y)- Fy; (y) | —e 46 silo ruse) (9.27) 


entrainent : lc [ot rs 6) | É C Le ; Est 6] | 1 (9.28) 


Ceci posé, si £;0 et Fx" (y) désignent les fréquences de Y; et les 
fonctions de répartition empiriques des variables liées Yyx; observées au 
cours de n épreuves indépendantes, on sait d'après les théorèmes de 


(n 
Borel et Glivenko-Cantelli que quand n—> les quantités | fi 1. pi et 


tendent presque certainement vers zéro. 


borne sup. FY ne 0) 
Donc : 


lemme. - Les indices empiriques continus du type II tendent presque 
certainement vers leur valeur théorique quand n —- 


Regardons donc si l'indice simple de connexion de Gini : 


2 P; té Fy; (y)-F(œ, y) | dy 
ÿ _ = (9.29) 
2 | FE (root) [1-F(o , ») | dy 


00 


est un indice continu. 


Cet indice n'est évidemment défini que siles intégrales du numérateur 
et du dénominateur convergent. 


Il en sera ainsi notamment si l'on peut trouver 2 nombres y! et y!'! tels 
quéuF(ico ",0y'}L= Ô Fos..y") = 1 (9.30) 
Ceci posé, pour pouvoir démontrer que 7 est un indice continu, nous 


serons obligés de supposer que (9.30) est vérifiée, S'il en est ainsi, les 
conditions (9.27) entraineront : 


Er: LE (y) - X P; + (y) | <e 
UE En ph CE , y) | —e 


| 


de même la variation du dénominateur tend vers zéro et, si Y ne se réduit 
pas presque certainement à une constante, on aura “ts - hrs bref, 
l'indice simple de connexion de Gini, empirique tendra presque certaine - 


ment vers sa valeur théorique si l'étendue de Y est bornée et non nulle, 


Fe (y)- F(œ ,y) 


Fe, (y)- F'(o ” ayez G'-y) 


B) EXTENSION AU CAS OÙ X ET Y SONT DES V.A. CONTINUES : 


La démonstration p (9, 9) prouve que si y est fonction univalente 
monotone de x . 
AE 


et si on prend des points de subdivision tels que : 


EU (REC )- F (x;i4, © DE 
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alors on pourra trouver pour chaque colonne 2 nombres y' et y'!' tels que 
la probabilité pour qu'un nombre soit de la.ième colonne et reste 


inférieur à y : 
Fi. (y) = F(ri,y)-F(xisy) 


ne soit susceptible de varier qu'entre y} et y" 


Fi (yi) = 0 
Fi Vies ri (où) 
et que : F(osy')- Elo Fyi)se 


Définition - 


F(x, © ) étant supposée absolument continue, nous dirons que nous 
avons une liaison unilatérale du type A si pour tout ee, et à tout 
ensemble de valeurs de x 

CNET NE M telles que F(xi,o j)-F(xi-1,&© )e on 
peut faire correspondre une suite de nombres y; y tels que : 


1] 
oies Men rs (Co) 
et que : Fo , y) - F(o , y' }ke (où k est une 
constante donnée). 


Examinons quelle valeur prend l'indice de connexion simple de Gini 
quand nous avons une liaison unilatérale du type A et quand : 
E(enro. ee Fri) ete 


posons : Fey; (y) EH b— 


Le numérateur de l'indice simple de connexion de Gini est : 


Rai 


oo 


Fr, Oro 9 | à (9.31) 


Or, il existe par hypothèse, pour chaque valeur de €; un nombre y, ( K; ) 
tel que si nous définissons y! et y} par : 


Flo .y}) = Flo , y)-2  F(æ ,y") = Fl@ ,Yo) + <& 
on aura : ia (pe 0 Fy. (y1) tte 
pour y, fixé on a : Fe; (y EC. sy = Fo , y1) 
pour ceux des Yi tels que y — y, donc avec une probabilitéau moins 
égale à : Rp Aie ke 
de même, on aura F%; (y:) - F(œ ,y1) = 1 - F(@ ,y,)pour ceux 


des ar tels que es y, donc avec une probabilité au moins égale à F()< 


Bref, le numérateur vaudra au moins : 


N = ( | F(o ,y) | 1-F(c0 Fini ET » | [rte Del Lay 


et si l'étendue de la v.a. marginale Y est finie non nulle, l'indice simple 
de connexion de Gini tend bien vers 1. 
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LECTURES RECOMMANDEES 


I. Sur les conditions de Fréchet et indices vérifiant ces conditions, 


Consulter Fréchet [2] , Féron [1] , Brambilla [1], Jordan EE 
Geiringer [1] , Gini [1] , Salvemini [1]. 


II. Sur les indices peu connus vérifiant d'autres conditions que celles de 
Fréchet, 


Darmois [3] ouRisseretTraynard [1] ouTchuprov [1] ,Fréchet [2] 
ou Féron [1] , Brambilla [1] , Gini [2] [3] [4] ST le 
Karl Pearson [2] [3] [4] [5] , Steffensen [ 1] , Kendall [2] 


IlI.Sur la loi de probabilité de diverses caractéristiques fonctionnelles 
empiriques. 
A/ dans le cas de petits échantillons, 
1) borne supérieure de la variance des caractéristiques fonctionnelles 
empiriques : 
Fréchet [1] , Darmois [5] : Cramér [1] 


2) Le calcul effectif de la distribution est évidemment un cas d'espèce, 
On lira avec fruit sur toutes ces questions : 


Kendall [1] et Insee [1] , Fisher [1] et en général tous les 
articles de £,.S. Pearson, 


B/ dans le cas des grands échantillons, On a alors des théorèmes qui 
nous permettent d'affirmer la tendance vers la loi normale sauf dans 
des cas exceptionnels : cf Von Mises [1] , Hoeffding [1] 
Bernstein [2] [3] i 
Même dans les cas exceptionnels on peut d'ailleurs souvent déterminer 
la distribution limite Von Mises [2] ai 


Donnons pourtant quelques indications complémentaires : 
1. pour les divers indices de corrélation : 


a) pour le coefficient de corrélation linéaire cf. E.S. Pearson [8] 
et [10] , Pittman[2] , Chesire, OldisetPearson [1], David [1] 


b) pour le rapport de corrélation de Pearson cf Fisher 
p. 605 et Hotelling [1] 


c) pour les coefficients de corrélation du rang cf Kendall [2] 


2. pour les autres caractéristiques fonctionnelles : 


a) écarts typiques : Pour l'étendue, E.S. Pearson [4] f12] Ua 
pour l'écart type Kendall [1] , Davies et E.S. Pearson [1], 
pour l'écart moyen E.S. Pearson [15] 


b) Différence moyenne Nair [1] 
c) pour les coefficients 24; Bo ; Wn E.S.Pearson pal [9] [13] 


d) pour le coefficient de variation E,S, Pearson {[11] 


Si l'on veut utiliser une caractéristique fonctionnelle récente, on sera 
généralement amené à déterminer sa distribution approximative, On y 
parviendra en suivant l'une des méthodes qui ont déjà été utilisées pour 
la détermination des caractéristiques fonctionnelles citées ci-dessus, 
Il s'agit là en général d'un travail simple mais laborieux, 


CHAPITRE X 


GENEÉRALISATION DE CERTAINS TYPES 
DE PROCESSUS STOCHASTIQUES 


Nous vous proposons maintenant de généraliser les notions de processus 
à v.a.indépendantes, de chaine simple de Markow, de processus stochastiques 


stationnaires et de processus à accroissements indépendants. 


1. — PROCESSUS A VARIABLES ALÉATOIRES INDÉPENDANTES 


Un tel processus n'est guère concevable que dans le cas discret, 


Ontasumessuitemden via. EXAMEN AT à 
et l'ensemble des n premières v.a, a pour fonction de répartition 
PETER En) FSoit Xn| 1... n-1 la v.a. de tonction de répartition. 


FRE 8 a) 


F(tn | Lise: tn) pepe tee DE). EYE (OS, FH26D tn) 


F(xs,.,%n 


A) SENS CLASSIQUE : 


On aura un processus à v.a. indépendantes au sens classique si 
Fltn | x4,.., Xn4) = & (tn) (10.1) 


et ceci quels que soient x, ... xn(sauf peut-être pour un ensemble de 
valeurs de x,... xn de probabilité nulle), 


Donc au sens classique on aura un processus à v.a. indépendantes si 
quel que soit n fini les vecteurs aléatoires (Kirsss ex) éet VU (Xn) 
forment un couple aléatoire de vecteurs indépendants, 


Et nous avons vu que si ® est une fonctionnelle strictement concave 
la condition nécessaire et suffisante pour qu'il en soit ainsi est. que 


AJYIX = 0 (10.2) 


B) PREMIERE GENERALISATION - PROCESSUS A V.A, INDEPENDANTES 
RELATIVEMENT FONCTIONNELLE © (Sens strict) 


Si nous n'imposons plus à ® d'être une fonctionnelle strictement 
concave mais simplement d'être une fonctionnelle concave alors la 
relation (10.2) n'entraine plus (10.1)nécessairement, Aussitoutesles fois 
que(10.2) sera vérifiée dirons-nous que nous avons un processus avr a, 
indépendantes relativement à la fonctionnelle @ au sens strict, 


On notera en passant que si l'on prend la variance comme mesure de 
l'incertitude on tombe sur la très importante classe des processus à v, a. 
indépendantes en moyenne et dont la variance est finie. 
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DEUXIEME GENERALISATION - PROCESSUS A. V.A. INDEPENDANTES 
RELATIVEMENT A LA FONCTIONNELLE ® (Sens large) 


Nous obtiendrons des conditions encore moins restrictives si au lieu 
d'imposer à AT % ZX d'être nul nous imposons seulement à une des 
mesures de l'information dure d'être nulle. 


Dans la pratique nous n'aurons que deux cas à considérer suivant que 
l'on prend D* ou D pour mesure de l'information dure. 


1) PROCESSUS A V.A. INDEPENDANTES AU SENS LARGE PREMIER 
GENRE. 


Nous dirons que nous avons un tel processus si quel que soit no 
Dy x= O0 (10.3) 


Nous avons vu qu'il ne peut en être ainsi que si dans le schéma 
probabiliste considéré au chapitre 6 le couple de vecteurs aléatoire X 
est remplacé par un couple de vecteurs aléatoires indépendants X* U* dans 
le schéma probabiliste le mieux adapté. 


Dans le cas particulier où l'on prend la variance pour mesure de 
l'incertitude on retrouve les processus formés de v.a. (à écarttype borné) 
et indépendantes en moyenne. 


2) PROCESSUS A V.A. INDEPENDANTES AU SENS LARGE 2° GENRE: 
Nous dirons que nous avons un tel processus si 
Lie cu 0 (10.4) 


Nous avons vu qu'il en est ainsi si lorsqu'on impose à la nouvelle 
ligne de régression de av en X* d'être un hyperplan, le couple de vecteurs 
aléatoires XV est dans le schéma le mieux adapté remplacé par le couple 
de vecteurs aléatoires indépendants X*1* 

En particulier si on prend la variance comme mesure de l'incertitude 
un processus à v.a. indépendantes au sens large du 2€ genre est un 


s 


processus à variables aléatoires non carrelés 


E (xs xt) = Ef(xs)E (xt) 


2. — CHAINES SIMPLES DE MARKOV 
Considérons un espace abstrait (} de points © et un certain corps de 
Borel & - Autrement dit on suppose qu'on a : 
1) Qe# 
2) si Ac & alors Q-A€S 
3 Unes, AAES 


On suppose qu'on associe à ces ensembles une probabilité P(A ) 
c'est-à-dire une fonction non négative complètement additive et telle 
que P(QO) = 1 


On suppose en outre qu'à tout nombre réel t de l'ensemble T on 
associe une fonction B - mesurable x+ ( « 


A) SENS CLASSIQUE : 


On a un processus de Markov au sens classique si pour toutentier n — 1 
et quels que soient les nombres t,<Z t,,,,.— tn on a pour tout A 


PROCESSUS STOCHASTIQUES 201 


P { xt (eo = À | Xp XX tn | =p {xs Cu ) | xt, (& )} (10.5) 


Il est aisé de voir que si ® est une fonctionnelle strictement concave 
il faut et il suffit que quelque soit l'entier no et les ti choisis 


AJ T 
3 US ue EE JE (10.6) 
Xreprésente le vecteur aléatoire x, ... a 

pour qu'on ait un processus de Markov au sens classique, 

B) SENS STRICT : 


Aussi dirons-nous comme précédemment que nous avons un processus 
de Markov au sens strict relativement à la fonctionnelle ® si quel que soit 
l'entier n (10.6) est vérifiée. 


Si en particulier nous prenons la variance comme mesure de l'incer- 
titude, nous aurons un processus de Markov par rapport à la variance au 
sens strict si quel que soit n 


Halte rule Erreur el (10.7) 


Remarque : 
Dans le cas particulier où E(Xt, | Xtn4) = Xt,4 Ce dernier processus 
devient une martingale, 


C) SENS LARGE : 


De même que précédemment nous dirons que nous avons un processus 
de Markov du premier genre au sens large si quel que soit n 


* “ x rs 
Dhs © Pit AE (10.8) 


Il est aisé de voir que si nous prenons la variance pour mesure de 
l'incertitude nous aurons untel processus siet seulement si(10,7)est vérifiée, 


De même nous aurons un processus de Markov du second genre au 
: * . A 
sens large si le D; relatif au couple X+4,,,, Xt, est le même que le D, 


relatif aux vecteurs Ga CR se tan) et Ÿ (Xtn) 


En particulier si l'on prend la variance comme mesure de l'incertitude on 
aura un tel processus si E(V*| X*) à la même valeur quand X représente 
le seul vecteur Xt,, ou le vecteur Xt, ... Xt,, - En d'autres termes si la 


A 
variance étant prise comme mesure de l'incertitude E (Ktn | Xb 51 À 


représente la meilleure approximation linéaire de Xt.Ondoit avoir : 


A A 
E (Xtn | Xt4 co Xtns) = E (tn | Xtn1) (10.9) 


3. — PROCESSUS STOCHASTIQUES STATIONNAIRES 


A) SENS CLASSIQUE : 


C'est un processus tel que quels que soientti € T (= 1,23 u)vet 
la constante h € "X où est un ensemble tel que la distribution de 
Xt4h… Xtnth (F (Re An)) soit indépendante de h. 


(1) Un tel processus a déjà été considéré par Doob [1] p. 90, 
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On peut exprimer ce fait d'une autre manière - Remarquons que quelles 
que soient les valeurs h4... hm de H € %X on peut construire un couple de 


vecteurs aléatoires ROUTE (x® + HU ) 
1° Pr (H ='hj) ="pj=0" Zpi =<P1 
2 Pr (Bd) HE bise Ce F0 25... Ana) 


Dans ces conditions si le processus stochastique est stationnaire au 
sens classique alors 
AT = 0 (10.10) 


B) SENS STRICT : 


Aussi dirons-nous que nous avons un processus stochastique station - 
naire au sens strict relativement à la fonctionnelle concave ® , si quels 


que soient les vecteurs aléatoires H et Æ choisis (10.10) est vérifiée - 


Il est aisé de voir que si ® est une fonctionnelle strictement concave, 
tout processus stationnaire au sens strict est stationnaire également au 
sens classique, Il n'en est pas de même si ® estseulement une fonction- 
nelle concave, 


4. — PROCESSUS A ACCROISSEMENTS INDÉPENDANTS 


A) SENS CLASSIQUE : 
On aun télprocessus Et pOur: 2 100. —Mtnn > 3MIeSIV. a. 
U= Aug 2 XE etant tie Xtre 
sont indépendantes. 


Il en résulte que si nous avons un tel processus nous aurons toujours 
quels que soient t4 ... tn 


AT y sp (EME) 
B) SENS LARGE : 
1eT genre - On aura un tel processus si D'zy = 0 
2® genre - On aura un tel processus si (D* Vzy = 0 


Dans le cas où la variance est prise comme mesure de l'incertitude, 
: ee NE : S : 
il en sera évidemment ainsi sion aaffaire à un processus à accroissements 
orthogonaux, 
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